GoogleドキュメントのOCRは、なかなかの精度でおすすめ

GoogleドキュメントのOCR機能に34の言語が追加されました。お待ちかねの日本語も。

ということで、このブログのトップページををPDFで落として、どの程度の精度で文字を認識できるのか試してみました。ファイルはこちらからアップロードします。アップロードの際、「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する」にチェックマークを入れること。

今回アップロードさせた文書は4ページほどの量でしたが、ほとんど待ち時間なくでドキュメントに変換しました。できあがりはこのように、画像の後に変換した文書が続きます。

次にどの程度の精度で文字を認識しているのか、みてみることに。この部分がどのように読み込まれたかというと…

こんな感じで、完璧にテキストに落としてくれています。

無料で、この精度、最強です。いろいろな使い方ができるのでは。Evernoteの代わりになっちゃうかも。