2007-07-01から1ヶ月間の記事一覧

なぜか昨年の8月に研究室内でやった課題を見直してた。 見てたら、今ならもっと分かりやすく書ける!と思って、再実装し始めてしまった。

ruby-chasenのmake

ruby-chasenのmakeではまった。 % ruby extconf.rb Warning:extconf.rb:2: parsearg is deprecated after Ruby 1.8.1; use optparse instead checking for chasen_getopt_argv() in -lchasen... no creating Makefile/usr/local/libchasen.aがあるのに、chec…

USB teddy bear

http://www.engadget.com/2006/06/18/usb-teddy-bear-holds-data-scares-children/ 2枚目の写真見て、ちょっと欲しくなった。

ひぐらしみてたらこんな時間に! 最近また生活時間が狂ってきた。

.irbrc

#Tabで補完。TabTabで候補を表示。 require 'irb/completion' #pretty print。Hash等を見やすく表示。 require 'pp' #コマンドの履歴を30行分ファイルに保存。 IRB.conf[:SAVE_HISTORY] = 30 IRB.conf[:AUTO_INDENT] = true ホームにおいておくと吉。

造詣

造詣をゾウシって言っちゃった。時が止まった。

triangles

難しい。6909点。 http://armorgames.com/games/triangles_popup.html

ある対象語と同じ段落に共起した単語の頻度を数えて、 word1 1000 word2 2000 ...みたいなハッシュの形で標準出力に出すプログラムをCで書いた。これをrubyから``で呼び出してHashに入れて、 `hoge`.each do |line| key, val = line.split("\t") freq[key] +…

glib

とりあえずc + glib + libsaryを使ってみる。 libsaryで行検索して、g_hash_tableをキーをgchar*、値をgint*で使う方法までわかった。 次はlibsaryでsaryの-sと-eオプションの動作をどうやって実現するか調べる。 参考リンク: http://www.nurs.or.jp/~ogocha…

共起頻度

入力 #段落ID 表記 読み 基本形 品詞 ... EOS #段落ID ...出力 行:対象語t 列:素性語f として、tとfが同じ段落に出現した回数を並べた行列。 f1:100 f2:200 f1:50 f3:300 ...入力ファイルの各行の先頭をindex pointにsuffix arrayを作成しておく。 find . -n…

ナウシカ

昼頃に届いて、そのまま読み初めて、気づいたら夕方になってました。数ヶ月前にも妹の借り物を一度読ませてもらったことがあって、今回が2回目だけど、また新たな発見が。これは何度も読み返したいな。ということで、買って良かった〜。

plsiに投げる単語の共起頻度の行列を作り直したい。今はコーパスを全て走査して、単語のペアとその頻度のハッシュをつくるプログラムと、それを使って行列をつくるプログラムの2段構えになっている。しかし、ペアの数が膨大なのでハッシュが大きくなりすぎて…

mata-ri

車のガラスを拭いて撥水して、美容院行って、また〜り。そして、Amazonでナウシカ7巻セットとAKIRA(1)をこうにゅう。どっちも本屋で見ないよね。

Bayesianってどういう考え方

http://hawaii.naist.jp/~shige-o/Tips/Bayes.html

対象語を中心とするウインドウ幅10単語の文脈をbag of wordsでベクトルにして、k=10でkmeansをかけたらクラスターの要素数が均等になった。そして、できれば対象語の語義ごとにまとまって欲しいところだが、そうはなってない。ベクトルが散らばりすぎて、ク…

とりあえず、文書-単語-行列をつくってPLSIにかけてるところ。 入力のフォーマットも簡単だし、使いやすそうな印象。 出てきたmodel.pdzの行列をベクトルとみなせばいいのかな。 http://chasen.org/~taku/software/plsi/

びりー

エリートを通販で買おうと思ったら、売り切れだったり、高くなってたり(´・ω・`)

PLSI + Clustering

興味はあるけど、何をやっているのかわからないのでとりあえずメモメモ。 http://www.hirasa.mgmt.waseda.ac.jp/lab/list/05/2005_39.pdf#07/20追記: クラスタの個数=latent stateの個数とみなしてPLSIを行って、P(z|d)が最大になるようなlatent state(クラ…

ビリー目当てで楽天をあさってたら、よさげな傘の通販を発見。 コンビニ傘がすぐ壊れてしまうので、普通の傘も買ってみようかなと思っていたのでした。 http://www.vic2.jp/totes/16k_photo.html

情報検索のlecture notes

CSE 494//598 Information Retrieval, Mining and Integration on the Internet LSI・Clusteringなどあり。図が分かりやすいかな。

数日かけてやっとクラスタリング結果が出たと思ったら、おまけのpurityとentropyの計算方法を間違ってた。 後付で必要な部分だけ別のスクリプトでつくればいいんだけど、毎回そんなことやるのも効率が悪いので、今後は時間のかかる部分だけで1スクリプトに切…

survey

ふとググッたら出てきた論文。 http://nlp.dse.ibaraki.ac.jp/~shinnou/paper/nl-ken-180.pdf クラスタリングによる語義別用例の収集、ただし半教師あり。 これをもっと完全に教師無しにしたいなぁ。でも、bag of wordsじゃただの文書分類。しかしそれでもク…

擦った

アパートの駐車場の自分のスペースの奥に車が一時停車してて鼻面がでてたので、その前につっこんでからハンドルを左に切りながらバックで停めようとしたら右前の車との距離を見誤っていて、自分のバンパーを相手のグリルガード(多分・・・)に「キュリキュリィ〜…

goodwill

http://headlines.yahoo.co.jp/hl?a=20070714-00000041-mai-soci 一度だけ利用したことがあって、確かにポロシャツと軍手は買った覚えがある。そういう決まりだとか言ってたけどw

boyaki

あるぇー。1000次元のベクトル700個のkmeans(k=10)がいつまでたっても終わらないぞ〜(´・ω・`) どこで時間かかってるのかなぁ・・・。

ビリーズブートキャンプまとめ

http://www22.atwiki.jp/onemoretime/ 食事プランとか股関節ストレッチのあたり参考になります。

新型PSPが9月に発売

新PSP 実機ギャラリー - Engadget 日本版 重さ 280g => 189g 厚み 23mm => 18.6mm ビデオ出力ポート UMDの読み込み速度改善 コメントにもありましたが、すでに持ってる人が買い換えたくなるような変更だ。

モスのスタンプ

1枚分・4つ貯まった。普段からよくいくのでこういう企画は結構うれしい(-ω-) ちなみに今日はナンタコス・メキシカンモレうまー。

ゆでそば2

今度は水で軽く洗って生醤油で食べてみた。やっぱりのびのびでマズイ。

ゆでそば

地元でゆでそばを買ってきた。かるく湯通しして食べて、と書いてあったのでそうやって食べてみたら、伸び伸び。湯通ししすぎなのか、ゆでそばとはそういうものなのか・・・。