TOP > blog > 画像PDFファイルから文字を抽出
パソコン
2018/06/04

画像PDFファイルから文字を抽出

管理者用
blog

今日は、PDFファイルから文字を抽出を取り上げます。

先日、挨拶状をお受けしましたが、その原稿がPDFファイルで入稿されました。
このPDFファイルは、プリンターで印刷したものを、スキャナーで読み込んで、PDFファイルにしたもののようです。

弊社では、挨拶状の版下は、イラストレータまたは、インデザインを使用してます。
入稿原稿が、テキストやWordファイル等の場合は、コピー&ペーストでデータの取り込みが容易です。

PDFファイルでの入稿の場合もコピー&ペーストが使える場合が多いのですが、今回のような画像のPDFファイルはできません。

こんな時、Adobe Acrobat の文字認識機能を使うと便利です。

実際に、入稿されたPDFファイルで試してみました。

 

PDFファイルを編集可能ファイルに変換

次の図は、入稿されたPDFファイルです。
縦書き、原稿が横に表示されてます。 

 

 Adobe Acrobat で開きます。
無償で入手出来る Adobe Readerでは、編集機能はt買えませんので注意してください。

 編集 ⇒ テキスト画像を編集

 

 

文字列をいくつかのブロックに分けて、90度回転され、縦書きの文が読みやすいようにしてくれました。

 この状態で、テキストボックスを移動できるようになってます。
元の、画像文字は、消えてます。
書体も楷書体で、元の画像PDFと違和感ない形に変換されてます。
文字認識は実行されているようです。

この結果を見ると、すごいなー! と思います。

テキストをコピー

 編集可能となったPDFファイルから、テキストをコピーしてみました。

細かくブロック分けされています。
各ブロックの文字を選択し、コピー、テキストエディターにペースト・・・・

細かく分かれたブロックの中には、テキストの選択に苦労するものを有りましたが、
手入力に比べたら、大きな作業効率アップです。

 

他形式への書き出し

  編集可能となったPDFファイルを他の形式への書き出しを行ってみました。

Wordeへの書き出し

この状態で、ワード形式 への書き出しを行ってみました。

ファイル ⇒ 書き出し形式 ⇒ Microsoft Word

ワードが立ち上がり、編集可能なワード文書が開きました。

 多少手を加える必要はありますが、データ入力の必要はなさそうです。

テキストへの書き出し

テキストへの書き出しも実行してみました。

 ファイル ⇒ 書き出し形式 ⇒ テキスト

 メモ帳は開いたのですが、真っ白けのままでした。

 編集可能になったPDFファイルを別名保存し、その後開いてから同じ事を実行すると
 PDFファイルの内容がにコピーされたメモ帳が開きました。

 ただし、テキストブロック毎にコピーされるようで、その順番は、内容の順になっていない事もあり手直しが必要です。

 

Wordeに書き出し

前の項で、Wordeに書き出しの紹介をしtました。
この時は、一度編集可能なファイルにした後にWordeへ書き出しを実行しました。
Wordeに書き出すだけの場合は、そのような手順は、必要ありません。
画像PDFファイルを、そのままワード形式に書き出す事が出来ます。

ファイル ⇒ 書き出し形式 ⇒ Microsoft Word

先の、ワード文書と同じ結果です。

 

このWordeファイルの内容をコピーして使うのが一番良いように思います。 

 

 


 

 

関連記事