Tesseract OCRの日本語読み取り精度が上がってる

nogajun
nogajun

_

Tesseract OCRというオープンソースのOCRソフトがあります。Debianリポジトリにも入っているのでaptでインストールして簡単に試せます。

$ apt install tesseract-ocr tesseract-ocr-jpn tesseract-ocr-jpn-vert tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert

以前、試したときは精度が良くなかったので、学習させなきゃ使うのは難しいのかと思ったまま忘れていました。

今日、ふと思い出して試したのですが普通に読めるぐらいに精度が上がってて、ちょっとびっくり。ということで、テスト画像と出力を貼っておきます。 こちらのテストに使った画像は、LibreOffice Writerのダミーテキストを画像化したもの。

テスト画像

これが、Tesseract OCRで出力したテキスト。コマンドラインで tesseract picture.png output.txt -l jpn として出しただけ。

彼は背後にひそかな足音を聞いた。それはあまり良い意味をボすものではない。誰がこ んな夜更けに、しかもこんな街灯のお粗末な港街の狭い小道で彼をつけて来るというのだ。 人生の航路を失じ曲げ、その獲物と共に立ち去ろうとしている、その丁度今。

彼のこの仕事への恐れを和らげるために、数多い仲間の中に同ゃ考えを抱き、彼を見守 り、待っている者がいるというのか。それとも背後の足音の主は、この街に無数にいる法 監視役で、強朝な六をすぐにも彼の手首にがガシャンと下すというのか。彼は足音が止まっ たことに気が着いた。あわてて辺りを見回す。ふと狭い抜け道に目が止まる。

彼は素早く右に身を翻し、建物の間に消え去った。その時彼は、もう少しで道の真中に 転がっていたごみバケツにき転ぶところだった。

彼は暗闇の中で道を確かめようとじっと見つめた。どうやら自分の通ってきた道以外に この中庭からの出道はないようだ。

足音はだんだん近づき、彼には角を曲がる黒い人影が見えた。彼の目は夜の間の中を必 死にさまよい、逃げ道を探す。もうすべては終わりなのか。すべての苦労と準備は水の泡 だというのか。

突然、彼の横で扉が風に揺らぎ、ほんのわずかにきしむのを聞いた時、彼は背中を壁に 押し付け、追跡者に見付けられないことを願った。この扉は望みの綱として投げかけられ た、彼のジレンマからの出口なのだろうか。背中を壁にぴったり押し付けたまま、ゆっく りと彼は開いている扉の方へと身を動かして行った。この扉は彼の救いとなるのだろうか。

これは、かなり使える感じ。LibreOffice Writerに取り込む拡張機能作ってみるといいかなー。