Wikipediaテキストを利用した自然言語処理

Wikipediaは比較的まとまったテキストが手に入る優れた題材として自然言語処理の研究にも利用されています。Wikipediaのテキストデータはダンプサイトからダウンロードできます。"Wikipedia:データベースダウンロード"のページからたどれます。
Wikipedia:データベースダウンロード - Wikipedia
日本語Wikipediaダンプサイト

ダウンロードしたダンプデータはXML形式ですが、そこから文のテキストを取り出すために、例えば次のツールがあります。
http://wp2txt.rubyforge.org/

また、Wikipediaのダンプデータから単語の概念関係を求めるツールが AGAGIN (NICT) から公開されています。
上位下位関係抽出ツール Version1.0: Hyponymy extraction tool

この ex-hyponymy-1.0 はLinuxが動作環境と説明されていますが、もちろんMacでも、たとえばMacPortsmecab +utf8, rb-mecab, pecco または TinySVM をインストールすると利用できるはずです。

また ex-hyponymyが紹介されているALAGIN (NICT)の同じオープンソース紹介のページから、すでに公開されている日本語 WordNetをたどることができます。
ALAGIN(NICT)オープンソース
http://nlpwww.nict.go.jp/wn-ja/

実に様々なものが利用できますね!