同じデータをPLSIにかけてみた

PLSIだとたいていのトピックの関連語の上位に「する,いる,日,ない,から,ある,なる,人,こと」等の一般的な単語が出てきてしまう.上と同条件でPLSIにかけてトピック0〜2を見るとこんな感じ.

topic 0: する,いる,ない,日,ある,なる,から,年,的,氏,時,市,や,一,者,同,円,会,へ,日本,いう,人,東京,こと,さん,米,中,よう,大統領,国
topic 1: 日,ない,人,いる,こと,から,なる,年,ある,や,時,へ,円,一,氏,会,さん,者,日本,市,する,区,東京,%,中,いう,分,ソ連,同,米
topic 2: する,ない,いる,日,人,なる,から,こと,年,者,的,一,市,いう,同,日本,さん,ある,よう,中,円,会,ば,ます,ソ連,県,委員,会議,もの,関係

ちょっと工夫してlog p(w|z)/p(w)の順に出力してみると,やっとトピック間の違いが見えてくる.

topic 0: イチ,耕,星野,借家,経済企画庁,杉山,光雄,聞き手,遊園,問い,次郎,勧め,詩人,暗に,長老,中押し,祖母,中央大,テレビ朝日,クリニック,ネコ,私邸,事典,衣,松島,よし,松江,革,
ワクチン,公衆
topic 1: 各組,近事,片々,心不全,じん不全,築地,斎場,かずお,正人,くに,巽,府政,発作,告別,肖像,暴走,落合,鉄製,保,輝,殿,えい,聞き手,論説,ひろし,練馬,ハイビジョン,粋,電車,FA

topic 2: 近事,片々,ジャンボ,求刑,マグマ,根室,回戦,混合,弾頭,引退,錠,サイ,症例,アカ,録,交わす,日の丸,優秀,マナー,肉体,週末,いじめる,慎,抗告,柔道,墨田,鉄製,あきらめる,精
密,手紙

それでも,どういうトピックなのかはわからないけど.