pdftotext,pdfgrep

/ Linux/Unix / Comment[2]
PDFをtextファイルに変換

$ sudo apt-get install xpdf

$ pdftotext -listenc
Available encodings are:
UCS-2
ASCII7
Latin1
UTF-8
ZapfDingbats
Symbol
Big5
EUC-JP
EUC-CN
ISO-2022-KR
Big5ascii
KOI8-R
GBK
ISO-8859-6
Latin2
ISO-8859-7
Windows-1255
ISO-8859-8
ISO-8859-9
ISO-2022-JP
TIS-620
ISO-2022-CN
Shift-JIS

$ pdftotext -enc UTF-8 PDF.pdf PDF.txt


少し文字化けしてる



PDFファイル内をgrep

$ pdfgrep 文字 PDF.pdf



ちょっと便利かも
関連記事

コメント

べんりだお

| URL | 長倉 怜二#DWa7YIhw

なにこれ便利

| URL | 本田さん#-

:
:
:
:
:
管理人のみ表示を許可