ITmedia NEWS > 速報 >

Google DocsのOCR変換機能が日本語に対応

» 2011年03月01日 15時29分 公開
[佐藤由紀子,ITmedia]

 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日本語を含む29カ国語に対応させたと発表した。日本語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。

 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。

 ocr1
 ocr2 デジカメ画像からの変換例

 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ。また、左から右に表記される言語にのみ対応し縦書きは取り込めない。

 対応する言語の種類はGoogle Docsのアップロードの画面の「ドキュメントの言語」で確認できる。アジアの言語としては日本語のほか韓国語、中国語(簡体字)、ベトナム語、タイ語などが追加されたほか、ロシア語などスラブ系言語も加わり、合計34カ国語になった。Googleは、今後も対応言語を増やし、読み取り精度および変換スピードの向上に努めるとしている。

Copyright © ITmedia, Inc. All Rights Reserved.