plsiの疑問 - mumoshu.log

zの個数の個数に関わらず,plsiで圧縮したword-vectorを使うとクラスタリング結果がひどく悪化する.
スムージングのしすぎかと思って,試しにplsiの吐いたmodel.pwzを使って元の次元に戻してやると,plsiをかける前のクラスタリング結果とほぼ同じになってしまった.
単純に意味のあるトピックが見つけられなかっただけなのか?
素性語wの出現確率の分布がすごく偏ってたりするせいか?
word-vectorの圧縮にplsiが向いてないのか,plsiに渡してるパラメータの調節でなんとかなるのか.
その場合でも,最適なパラメータなんて実験的にしかわからないんじゃないか.
結局,SVDで特異値の低い次元を削るのが単純でいい気がしてきた.
Schutzeの論文では精度も上がってたし...
#ある単語のインスタンスと共起した文脈語のword-vectorを全てとってきて、そのセントロイドを求めるのが悪いんだろうな。
#そもそもword-vectorのセントロイドがトピックをあらわしているとしたのは,文脈語と共起する単語の分布は対象語と共起する単語の分布の情報を多かれ少なかれ含んでいる*1という仮定をして,そのセントロイドを求めることで,ある文脈語の組み合わせで使われる対象語インスタンス群と共起しやすい単語の分布を間接的に求めるためなんじゃないかと思う.仮定がありすぎてﾜｹﾜｶﾗﾝ.
#それこそテストデータの含まれる文脈の混合比をPLSIの論文に書いてあるみたいにEMアルゴリズムで学習すべきなのかも.

*1:文脈語として出てきた単語は今注目しているコーパス全体において対象語と同じ文に出てくる可能性が高いと考えられるから