飴屋

Chasen(茶筅)

Chasenは文章のテキストを品詞ごとに書き分けてくれるソフトウェアです。
この書き分けを「分かち書き」なんていったりします。
またこの日本語文章の解析を「形態素解析」といったりします。

欧米の文章と違って、日本語の文章は単語がスペースで区切られていないため、
単語をどこで区切るべきか機械的に判断させることが困難です。
Chasenを使用することで完全にではありませんが、なかなかの精度で
日本語の文章を分かち書きすることができます。

例えば、サイトのSEOに際して、あるページ内でどの単語がどの程度の
頻度で使用されているか調べるためにはChasenのような形態素解析装置が
必須となります。

そもそもこの装置は「奈良先端科学技術大学院大学情報科学研究科
自然言語処理学講座(松本研究室)」が学術使用目的で開発したもので、
現在、無償で配布されているものです。

http://chasen.naist.jp/hiki/ChaSen/

同様にKAKASIというシステムも広く使用されています。
両者は全文検索システムNAMAZUをはじめ、多くのシステムに組み込まれて
有効に活用されているようです。

私も興味があるので、少しいじってみることにしました。
Windows環境で動く仕組みも公開されているので、
そちらを使用した顛末を書いていきたいと思います。