ブログ通信簿

http://blogreport.labs.goo.ne.jp/tushinbo.rb


マメだって。そういう感覚は無かったのだがw

内部構造を予想してみる

性別、年齢、〜度、タイプ、将来の仕事それぞれの分類器
があればいいんだろうか。以下のような感じで。

分類器 クラス例
性別、2クラス 男性、女性
年齢、99クラス 0〜100?
主張度、5クラス 1〜5

前提として、対象となるのはブログのみとする。ブログは内部的にはその最新記事10件で表して、単語頻度ベクトルにしておく。

まずブログを適当に抽出して、性別、年齢など人手でタグ付けして正解データとする。これを元にNaiveBayes分類器つくる。

年齢は特にクラス数が多いので、いざタグをつけてみたら「正解データがないクラスがあるんですけど!」ということがありそう。別案としては、0〜100歳まで10刻みでタグをつけることにして、各ブログの年齢は、年齢クラスの生起確率の重み付き和でやっつけたらいいかな。

タグづけが大変そうだw