• 特集
  • 番組
  • トピックス
  • 学び
プレミアムを無料で体験

PDFから構造化テキスト抽出に成功 岩波新書をEPUB化 イースト

80
Picks
このまま本文を読む
本文を読む

コメント


のアイコン

注目のコメント

  • フリーランス ITコンサルタント

    入力として使用するPDFは、「テキストPDF」と書かれているので、紙の書籍をスキャンして画像1枚が張り付けられているPDFではなく、文章がテキスト(文字コードのついた文字の連続)として、埋め込まれているということ。
    EPUBpackを利用するのは、著作権者なのだから、テキストPDFを生成するために使った元ネタである文書ファイル(Adobe InDesignとかMS Wordとか)を持っているはず。なぜ、その元ネタからEPUBを生成しないんだろう。不思議。


  • リスクマネジメント/文書情報管理コンサルタント マネージャー

    PDFのテキスト化に関しては、元々日本語は単語と単語の間が開いていなかったり、カタカナとひらがなで同じような文字が存在していたりと、かなり難易度が高い言語で知られていますが、今回の構造化テキストは素晴らしいと思います。
    次の課題は、手書き文字のテキスト化だと思いますが、現在AI-OCRの開発等進歩してはいるものの、まだまだ定型フォーマットで範囲指定をし、ある程度読み取り条件を付けてあげないと難しいのが現状ですので、もうしばらく時間はかかりるのではないかと思っています。


  • 日本メンテナスエンジニヤリング(株)

    専門用語ばかりでよくわからんが、テキストPDFを本みたいに変換できるアプリを開発したんですね。成功と書いてあるので苦労したのですね。


アプリをダウンロード

NewsPicks について

SNSアカウント


関連サービス


法人・団体向けサービス


その他


© Uzabase, Inc

マイニュースに代わり
フォローを今後利用しますか