ITエンジニア/デザイナ向けにオープンソースを毎日紹介

DocsplitはRuby製のオープンソース・ソフトウェア(LGPL)です。

PDFはどのコンピュータで見ても変わらないこと、編集が容易でないことがメリットに挙げられますが、そのデータの再利用性が悪いのが欠点です。そこでDocsplitを使って必要なデータを取り出してみましょう。


textオプションでテキストを取り出せます。


とある文章でトライした場合。日本語の取り出しはうまくいかないようです…。


imagesオプションではPDF自体を画像化します。


こんな感じです。この場合日本語も画像になっています。

Docsplitではその他、任意の文書をPDFにしたり、指定ページだけを処理したりすることもできます。またPDFのタイトルや執筆者情報を抜き出すことも可能です。PDFを色々と操作したい時に便利そうです。


MOONGIFTはこう見る

PDFがよく使われるのは業務システム絡みで、相手企業からの請求書やレポートがPDFで配信されたりします。この場合、数値をシステムに取り込みたい場合に手入力ではとても時間を要します。そこで変換できるライブラリが活躍します。

PDFからテキストはもちろん、HTMLへの変換も便利です。日本語は常に問題になりますので、日本語を抜き出すのはお勧めしません。数値を抜き出す程度であれば問題なく行えるはずで、それによって業務効率化は大幅に進むでしょう。

Doc⚡split

documentcloud/docsplit

 

MOONGIFTの関連記事

コメント

  • DevRel
  • Com2