2007-09-14から1日間の記事一覧

同じデータをPLSIにかけてみた

PLSIだとたいていのトピックの関連語の上位に「する,いる,日,ない,から,ある,なる,人,こと」等の一般的な単語が出てきてしまう.上と同条件でPLSIにかけてトピック0〜2を見るとこんな感じ. topic 0: する,いる,ない,日,ある,なる,から,年,的,氏,時,市,や,一,…

LDAおもすれー

毎日新聞91年分のデータを語数10000,話題数100でLDAにかけた.ただし語は自立語の基本形のみ. 確認のため,各トピックkについてmodel.betaから取ってきたP(w|k)らしきものの順に単語wを出してみた.32個目のトピックはこんな感じ. topic 32: 県,市,町,郡,同,千…