ニュース

258億語の日本語コーパスをウェブで公開~国立国語研究所

言語研究や自然言語処理技術開発での基礎資料

 大学共同利用機関法人人間文化研究機構国立国語研究所は、258億語規模の「国語研日本語ウェブコーパス(NWJC)」と、これを対象にした検索システム「梵天」を3月7日より一般公開する。

 生活で使われた書きことばや話しことばのデータを大量に集積した「コーパス」は、言語研究に加え、辞書作成時の参照データ、機械翻訳や音声認識における基礎データとして利用されるもの。

 NWJCは、2014年10~12月にインターネット上で8399万2556のURLから収集した258億3694万7421のコーパスを収録。文数では14億6314万2939、のべ文数は38億8588万9575に上るデータが格納されている。

 データの構築にあたっては、ウェブアーカイブの構築で用いられる「Heritrixクローラ」を用い、約1億URLのウェブページを1年間にわたり3カ月おきにバルク収集。文単位で重なりを省く単一化を行った上、「nwc-toolkit」により日本語文の抽出と正規化が実施されている。さらに機械学習に基づき、形態素解析器「MeCab-0.996」と形態素解析用辞書「UniDic-2.1.2」による形態素解析と、UniDic主辞規則に基づく係り受け解析器「CaboCha-0.69」による係り受け解析が行われている。

 梵天の一般公開版では、この258億のコーパスに対する文字列検索が行える。また、高機能版では、動詞や名詞などの品詞や、主語-述語関係などの係り受けを使った詳細な検索が行える。高機能版は、登録制のコーパス検索アプリケーション「中納言」を半年以上利用した上、国語研が開催する検索系「梵天」講習会に参加したユーザーが対象。講習会は3月末に数回開催される予定。

 梵天のフロンドエンドは、コーパス管理ソフトウェア「ChaKi.NET」を参考に株式会社万葉が開発。バックエンドには株式会社レトリバの「Sedue for Bigdata」が用いられている。

 国語研では2010年、1億語規模の「現代日本語書き言葉均衡コーパス」などを公開しているが、日本語のさまざまな文型や表現をカバーするには規模が小さすぎる問題があった。

 今回の公開について国語研では、言語研究や自然言語処理技術開発での基礎資料として、稀言語現象の言語学・心理学・情報処理的視点からの究明の可能性を開くことを目的としており、言語研究のための用例収集、日本語使用実態の定量的な把握などを具体的な応用として想定している。

 このほか国語研では、語彙表、n-gramデータ、分散表現データといった基礎統計データもあわせて公開している。