PDFから構造化テキスト抽出に成功 岩波新書をEPUB化 イースト
コメント
注目のコメント
入力として使用するPDFは、「テキストPDF」と書かれているので、紙の書籍をスキャンして画像1枚が張り付けられているPDFではなく、文章がテキスト(文字コードのついた文字の連続)として、埋め込まれているということ。
EPUBpackを利用するのは、著作権者なのだから、テキストPDFを生成するために使った元ネタである文書ファイル(Adobe InDesignとかMS Wordとか)を持っているはず。なぜ、その元ネタからEPUBを生成しないんだろう。不思議。PDFのテキスト化に関しては、元々日本語は単語と単語の間が開いていなかったり、カタカナとひらがなで同じような文字が存在していたりと、かなり難易度が高い言語で知られていますが、今回の構造化テキストは素晴らしいと思います。
次の課題は、手書き文字のテキスト化だと思いますが、現在AI-OCRの開発等進歩してはいるものの、まだまだ定型フォーマットで範囲指定をし、ある程度読み取り条件を付けてあげないと難しいのが現状ですので、もうしばらく時間はかかりるのではないかと思っています。