この記事は1年以上前の古い記事です。現状に即していない記述の場合があります。あらかじめご了承ください。
PDFをレイアウトを崩さずテキストデータに変換するにはpoppler-utils付属のpdftotextを使う

nogajun
_
Linuxを使っている人向けのお話しです。銀行が出している取引明細PDFをテキストに変換するには、poppler-utilsに入っているpdftotextに-layout
オプションをつけて変換するとレイアウトを崩さずにテキスト化できます。
大量にある場合はこんな感じで流し込みます。改ページを削除する-nopgbrk
オプションはお好みでつけてください。
$ ls (PDFファイル名) | xargs -n1 pdftotext -layout -nopgbrk
テキスト化した後はsedやawkで加工したり、LibreOffice Calcで読み込んで利用する時は区切りを固定長で幅を指定して読み込むといい感じに読み込めます。