plsi segmentation fault

'91年の毎日新聞のデータにおける出現頻度トップ10000語を対象語にして,段落x対象語の共起行列をつくった.
対象語を3語未満しか含まない段落は省くと,48万段落x10000語の行列になる.
これを訓練データにplsiをかけるとメモリ不足(?)でsegmentation fault.
http://www.k.mei.titech.ac.jp/~stamura/NumericalComputation-Tips.html#c_static_array
を見て,zshなので'ulimit -s'とやってスタックも無制限に使えるようにしてみたけど変わらず.
試しに470,000段落x1000語でやってみたら,n=300(メモリ2Gほど使用)あたりまでは動いた.
今まで対象語10000個についてword-vectorをつくってたので,なんとかそれに合わせたいところ.
記事単位でやってみるか.

#追記
480,000段落,10000語,n=200で動くみたい.メモリは2Gほど使用.
1000語とn=100でやっても解釈しやすいトピックは出てこなかったので,語数と次元数の比はこれくらいでもよさそうだし,結果に期待.
http://www.mibel.cs.tsukuba.ac.jp/research/nl/DM031017.pdf
このスライドでは10次元でやってる.