LDAおもすれー

毎日新聞91年分のデータを語数10000,話題数100でLDAにかけた.ただし語は自立語の基本形のみ.
確認のため,各トピックkについてmodel.betaから取ってきたP(w|k)らしきものの順に単語wを出してみた.32個目のトピックはこんな感じ.

topic 32: 県,市,町,郡,同,千葉,神奈川,日,埼玉,静岡,長野,兵庫,奈良,愛知,福島,新潟,村,茨城,広島,青森,和歌山,福岡,鹿児島,岐阜,山梨,熊本,群馬,滋賀,石川,栃木

県名がうまくまとまってる.
「何日どこどこで〜〜があった。」みたいな新聞記事でよく出てきそうなトピックをあらわしてるのかな.
わかりやすいところでは他にも選挙のトピック

topic 98: 選挙,制,区,小,制度,総,導入,定数,比例,人口,代表,是正,する,議員,政党,衆院,中,人,答申,配分,都道府県,最大,行う,案,自民党,数,来年,実施,倍,全国

とか,東京のトピック

topic 99: 東京,区,都,港,新宿,千代田,渋谷,日,世田谷,中野,中央,本社,杉並,文京,呼吸,大田,品川,目黒,練馬,豊島,八王子,板橋,築地,多摩,江東,足立,青山,社長,江戸川,たか

があったりして面白い.