PDFから構造化テキスト抽出に成功　岩波新書をEPUB化　イースト

ITmedia

2019/07/25

Picks

このまま本文を読む

本文を読む

注目のコメント

笠原規男
フリーランス ITコンサルタント
・2019年07月25日
入力として使用するPDFは、「テキストPDF」と書かれているので、紙の書籍をスキャンして画像1枚が張り付けられているPDFではなく、文章がテキスト(文字コードのついた文字の連続)として、埋め込まれているということ。
EPUBpackを利用するのは、著作権者なのだから、テキストPDFを生成するために使った元ネタである文書ファイル(Adobe InDesignとかMS Wordとか)を持っているはず。なぜ、その元ネタからEPUBを生成しないんだろう。不思議。
難波孝
リスクマネジメント/文書情報管理コンサルタントマネージャー
・2019年07月25日
PDFのテキスト化に関しては、元々日本語は単語と単語の間が開いていなかったり、カタカナとひらがなで同じような文字が存在していたりと、かなり難易度が高い言語で知られていますが、今回の構造化テキストは素晴らしいと思います。
次の課題は、手書き文字のテキスト化だと思いますが、現在AI-OCRの開発等進歩してはいるものの、まだまだ定型フォーマットで範囲指定をし、ある程度読み取り条件を付けてあげないと難しいのが現状ですので、もうしばらく時間はかかりるのではないかと思っています。
滝口孝次郎
日本メンテナスエンジニヤリング(株)
・2019年07月26日
専門用語ばかりでよくわからんが、テキストPDFを本みたいに変換できるアプリを開発したんですね。成功と書いてあるので苦労したのですね。