ブログ通信簿
http://blogreport.labs.goo.ne.jp/tushinbo.rb
内部構造を予想してみる
性別、年齢、〜度、タイプ、将来の仕事それぞれの分類器
があればいいんだろうか。以下のような感じで。
分類器 | クラス例 |
性別、2クラス | 男性、女性 |
年齢、99クラス | 0〜100? |
主張度、5クラス | 1〜5 |
前提として、対象となるのはブログのみとする。ブログは内部的にはその最新記事10件で表して、単語頻度ベクトルにしておく。
まずブログを適当に抽出して、性別、年齢など人手でタグ付けして正解データとする。これを元にNaiveBayes分類器つくる。
年齢は特にクラス数が多いので、いざタグをつけてみたら「正解データがないクラスがあるんですけど!」ということがありそう。別案としては、0〜100歳まで10刻みでタグをつけることにして、各ブログの年齢は、年齢クラスの生起確率の重み付き和でやっつけたらいいかな。
タグづけが大変そうだw