コーパス・言語データ

はじめに

言語処理するのに基となるデータ(言語データ、コーパス)についてまとめてみる。
データ・テキストマイニングなどに。必要に応じてダウンロードして試してみたい。

コーパス(corpus)とは

  • 自然言語処理の研究に用いるために、自然言語の文章(用例)を構造化し大規模に集積したもの(電子データ)
  • 辞書は、言語データだけど用例ではないのでコーパスではない
  • よいコーパスとは、より対象をよくとらえているもの
    • 特定の著者の小説を集めたもの(その著者の言語情報をよくとらえている)
    • 新聞記事(新聞に使われている言語情報をよくとらえている)
  • 例えば「日本語」のコーパスというのは、「日本語」を的確にとらえてなくてはいけない
    • 新聞記事だけでは「日本語」の一部しかとらえられていない(ブログなどはとらえられていない)

データ収集

実際にダウンロードして使うことができる言語データ、コーパスなどのメモ。
普通は作るのにも手間がかかるため有料だったりするけど、Web上のデータをクロールするなりすれば無料でも集められたりできる。

青空文庫
WordNet
はてなダイアリー
Yahooニュース
読売新聞ニュース
2chトピックス一覧
  • http://kamome.2ch.net/カテゴリ名/subback.html
  • 各カテゴリのスレ一覧
    • 各ページの右下のリンクから過去ログtxtがダウンロードできる
日本文学学術電子図書館
郵便番号よみがなデータ

最後に

何か対象とするものをよく捉えているものを使う必要がある。
自分でデータを集めたり作ったりする場合は、目的の一部しかとらえられていない、なんてことがないようにしないといけない。

ぶっちゃけ、データを眺めているだけでもおもしろい:)