rast-mecab - Journal InTime(2005-03-18)

2005-03-18 (Fri) [長年日記]

_ rast-mecab

なんてものを作ってみた。

Rastでは、N-gram(というかトークン)の切り出しをエンコーディングモジュールというものに独立させているが、この部分でMeCabによる形態素解析を利用しているだけ。

RastとMeCabがインストールされている環境で、

$ ./configure
$ make
# make install

とすれば、インストールできる。

とりあえず、デモ。 N-gram版より結果の件数が少ないのは1万件弱しか登録してないから。

Rastは隣接チェックを行うので、趣味の問題のようなキーワードもちゃんと検索できる。一方、隣接チェックがない検索エンジンでは趣味問題のようなノイズの多い検索結果になると思う。辞書も小さくなるし、N-gramよりもいいケースもあるかな。

N-gramの利点の一つに、顧客に「○○という単語で検索できない」と言われた時に、「そんな文字列はもとの文書に含まれていませんから許してくださいよ」と説明できるということがある。任意の部分文字列の検索(要はfgrep)ができるからだ。「これは形態素解析器の辞書がですね...」という説明で納得してくれればいいけれど、あなたの顧客はそんなに物分かりがよいですか? *1

ここでちょっと考えたのだが、基本的に形態素解析でトークンを切りだし、未知語が表れたらその部分だけN-gramで処理するというのはどうだろうか。大多数のケースで良好な結果を得られそうな気がする。

あと、Rastで使う時は、形態素解析器にはなるべく単語を細かく切ってほしい。たとえば、「日本語」よりも「日本語」の方が好ましい。前者だと「日本語」で検索した場合はヒットするが、「日本」ではヒットしない。一方、後者なら両方にヒットするし、隣接チェックがあれば「日本語」の検索結果のノイズも増えない。 MeCabをこういう方向にチューニングすることができないかな。

Tags: ソフトウェア

*1 インデックス生成時に単語レベルで正規化したりすると、このメリットが損なわれるので、曖昧検索などを実装する際はOR検索のような方向性の方が望ましいかもしれない。すでに、Rastでは、「tcl/tk」のように規定のN(アルファベットでは3) より短いトークン(「tk」)がある場合には、前方一致検索を行った結果をマージしているので、同様に語尾の揺れなどにも対応できそうだ。

本日のツッコミ(全2件) [ツッコミを入れる]

_ ty (2005-04-01 (Fri) 21:43)

mecabのN-bestでN=2にしたら以下のようになりました。 obiwan% echo '日本語' | mecab -N2 日本語名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ EOS 日本名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン 語名詞,接尾,一般,*,*,*,語,ゴ,ゴ もっと沢山の例で検証する必要があるとは思いますが分割数が 最も多いもので切り出す手がありそうです。

_ shugo (2005-04-03 (Sun) 04:41)

なるほど、そういう手がありましたか。


		2005年 3月
日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Journal InTime

2005-03-18 (Fri) [長年日記]

_ rast-mecab

SNS

サイト内検索

カレンダー

タグ

最近のコメント

最近の記事