ITエンジニア/デザイナ向けにオープンソースを毎日紹介

PDFファイルは容易に修正できないとあって、修正されたくないファイル(見積書や請求書等)を作成する事も多い。

だが、受け取る側としてはその中にある文字を抽出して使いたいというニーズがある。

請求書の中から金額をピックアップするというようなニーズであれば、pdf2textを使って抽出するという手もあるが、これは日本語が文字化けてしまう事がある。また、それほど規模が大きくないのであればこれを使うのが簡単だ。

今回紹介するフリーウェアはPDFDocText、PDFファイルからテキストの抽出を行うソフトウェアだ。

使い方は簡単だ。起動すると上図のウィンドウが開くので、そこにPDFファイルをドラッグアンドドロップすれば良い。抽出が完了すると、PDFファイルと同名のテキストファイルが生成される。

例として左図のようなPDFファイルがあったとする。

これを抽出してみると、次のようなテキストファイルが生成される。

テーブル組になっている部分は文字位置がずれるが、抽出は問題なく行われているのが分かるだろう。

こちらは設定画面で、出力設定や改行コードの指定を行える。

PDFは便利なフォーマットで、様々な場面で利用されている。それだけにそこから必要な情報をピックアップして使いたいというニーズも多いだろう。PDFDocTextを知っていれば、そういったニーズに即座に答えられそうだ。

PDF情報取得 - PDFテキスト変換・抽出、文書情報としおりを取得

http://homepage3.nifty.com/e-papy/p2.html#s1

 

MOONGIFTの関連記事

コメント

  • DevRel
  • Com2