word-vectorをPLSIで圧縮する際のdとwの解釈

  1. d:対象語,w:素性語,dとwが共起した回数を訓練データにして,dを固定したときのP(z|d)の分布が対象語dのトピックを表している
  2. d:文書,w:対象語,d中にwが出現した回数を訓練データにして,wを固定した時のP(z|w)の分布が対象語wのトピックを表している

現在は1でやってます.でも1は対象語単位(対象語のインスタンス単位ではない.)で素性語との共起頻度を計算しているので,一段落中で絶対出現しない単語の組み合わせ(=たぶん関係ない語の組み合わせ)にもトピックを見出してしまいそう.
2は段落単位で対象語の出現頻度を計算してるので,それを元に実際に一段落内で共起した単語の組み合わせについてトピックを見出してくれそう.
2で試してみるか.