PDFをレイアウトを崩さずテキストデータに変換するにはpoppler-utils付属のpdftotextを使う

Posted by nogajun - 2018/02/12

_ Linuxを使っている人向けのお話しです。銀行が出している取引明細PDFをテキストに変換するには、poppler-utilsに入っているpdftotextに「-layout」オプションをつけて変換するとレイアウトを崩さずにテキスト化できます。

大量にある場合はこんな感じで流し込みます。改ページを削除する「-nopgbrk」オプションはお好みでつけてください。

    $ ls (PDFファイル名) | xargs -n1 pdftotext -layout -nopgbrk

テキスト化した後はsedやawkで加工したり、LibreOffice Calcで読み込んで利用する時は区切りを固定長で幅を指定して読み込むといい感じに読み込めます。