plsi + context group discrimination

research

対象語のインスタンスの文脈に出てきた単語の基本形・品詞・活用を素性にしてd=文脈,w=素性の700x2000くらいの共起行列をつくり、PLSIで100次元くらいに圧縮。model.pzdのP(z|d)の行ベクトルを文脈のベクトル表現とみなして、kmeans(k=10)でクラスタリング。…

2007-07-26

■

research memo

ある対象語と同じ段落に共起した単語の頻度を数えて、 word1 1000 word2 2000 ...みたいなハッシュの形で標準出力に出すプログラムをCで書いた。これをrubyから``で呼び出してHashに入れて、 `hoge`.each do |line| key, val = line.split("\t") freq[key] +…

2007-07-26

glib

research memo

とりあえずc + glib + libsaryを使ってみる。 libsaryで行検索して、g_hash_tableをキーをgchar*、値をgint*で使う方法までわかった。次はlibsaryでsaryの-sと-eオプションの動作をどうやって実現するか調べる。参考リンク: http://www.nurs.or.jp/~ogocha…

2007-07-25

共起頻度

research

入力 #段落ID 表記読み基本形品詞 ... EOS #段落ID ...出力行:対象語t 列:素性語f として、tとfが同じ段落に出現した回数を並べた行列。 f1:100 f2:200 f1:50 f3:300 ...入力ファイルの各行の先頭をindex pointにsuffix arrayを作成しておく。 find . -n…

2007-07-23

■

research memo

plsiに投げる単語の共起頻度の行列を作り直したい。今はコーパスを全て走査して、単語のペアとその頻度のハッシュをつくるプログラムと、それを使って行列をつくるプログラムの2段構えになっている。しかし、ペアの数が膨大なのでハッシュが大きくなりすぎて…

2007-07-20

■

research memo

対象語を中心とするウインドウ幅10単語の文脈をbag of wordsでベクトルにして、k=10でkmeansをかけたらクラスターの要素数が均等になった。そして、できれば対象語の語義ごとにまとまって欲しいところだが、そうはなってない。ベクトルが散らばりすぎて、ク…

2007-07-19

■

research memo

とりあえず、文書-単語-行列をつくってPLSIにかけてるところ。入力のフォーマットも簡単だし、使いやすそうな印象。出てきたmodel.pdzの行列をベクトルとみなせばいいのかな。 http://chasen.org/~taku/software/plsi/

2007-07-18

PLSI + Clustering

research link

興味はあるけど、何をやっているのかわからないのでとりあえずメモメモ。 http://www.hirasa.mgmt.waseda.ac.jp/lab/list/05/2005_39.pdf#07/20追記: クラスタの個数=latent stateの個数とみなしてPLSIを行って、P(z|d)が最大になるようなlatent state(クラ…

2007-07-17

■

research memo

数日かけてやっとクラスタリング結果が出たと思ったら、おまけのpurityとentropyの計算方法を間違ってた。後付で必要な部分だけ別のスクリプトでつくればいいんだけど、毎回そんなことやるのも効率が悪いので、今後は時間のかかる部分だけで1スクリプトに切…

2007-07-16

survey

Research

ふとググッたら出てきた論文。 http://nlp.dse.ibaraki.ac.jp/~shinnou/paper/nl-ken-180.pdf クラスタリングによる語義別用例の収集、ただし半教師あり。これをもっと完全に教師無しにしたいなぁ。でも、bag of wordsじゃただの文書分類。しかしそれでもク…