ITエンジニア/デザイナ向けにオープンソースを毎日紹介

LA-PDFTextは科学系出版物のPDFを解析してテキストを抽出するソフトウェアです。

PDFは色々な出版物に対して使われています。今回は特に科学的な出版物のために使われているPDFのテキスト読み取るためのソフトウェア、LA-PDFTextを紹介します。


元のPDF。


実行中。


出力されたXMLファイルです。

サンプルとして幾つかのPDFがダウンロードできますが、段組みが使われていたり、複雑なレイアウトのものが多いようです。さらに解析に際してブロックの分類のためのルールを独自に作ることもできます。大量の論文などから情報を抜き出すのに良さそうです。

LA-PDFTextはWindows/Mac OSX/Linux用のオープンソース・ソフトウェア(GPL v3)です。


MOONGIFTはこう見る

学術の分野においてオープンソース・ソフトウェアは積極的に利用、開発されています。どこの研究所においても潤沢な資金がある訳ではなく、研究に費用がかかる分ソフトウェア面では節約する傾向があります。しかし逆に開発も盛んに行われている印象があります。

ビジネスや一般ユーザが使うようなソフトウェアも良いですが、研究者向けのオープンソース開発もまた楽しそうです。その心が分かっている人たちであればフィードバックも適切に行われるかも知れません。大学時代を思い出してあれば良かったソフトウェアを作ってみるなんてのはいかがでしょう。

lapdftext - Layout-Aware Text Extraction from Full-text PDF of Scientific Articles - Google Project Hosting

 

MOONGIFTの関連記事

コメント

  • DevRel
  • Com2