画像PDFファイルから文字を抽出
管理者用
今日は、PDFファイルから文字を抽出を取り上げます。
先日、挨拶状をお受けしましたが、その原稿がPDFファイルで入稿されました。
このPDFファイルは、プリンターで印刷したものを、スキャナーで読み込んで、PDFファイルにしたもののようです。
弊社では、挨拶状の版下は、イラストレータまたは、インデザインを使用してます。
入稿原稿が、テキストやWordファイル等の場合は、コピー&ペーストでデータの取り込みが容易です。
PDFファイルでの入稿の場合もコピー&ペーストが使える場合が多いのですが、今回のような画像のPDFファイルはできません。
こんな時、Adobe Acrobat の文字認識機能を使うと便利です。
実際に、入稿されたPDFファイルで試してみました。
PDFファイルを編集可能ファイルに変換
次の図は、入稿されたPDFファイルです。
縦書き、原稿が横に表示されてます。
Adobe Acrobat で開きます。
無償で入手出来る Adobe Readerでは、編集機能はt買えませんので注意してください。
編集 ⇒ テキスト画像を編集
文字列をいくつかのブロックに分けて、90度回転され、縦書きの文が読みやすいようにしてくれました。
この状態で、テキストボックスを移動できるようになってます。
元の、画像文字は、消えてます。
書体も楷書体で、元の画像PDFと違和感ない形に変換されてます。
文字認識は実行されているようです。
この結果を見ると、すごいなー! と思います。
テキストをコピー
編集可能となったPDFファイルから、テキストをコピーしてみました。
細かくブロック分けされています。
各ブロックの文字を選択し、コピー、テキストエディターにペースト・・・・
細かく分かれたブロックの中には、テキストの選択に苦労するものを有りましたが、
手入力に比べたら、大きな作業効率アップです。
他形式への書き出し
編集可能となったPDFファイルを他の形式への書き出しを行ってみました。
Wordeへの書き出し
この状態で、ワード形式 への書き出しを行ってみました。
ファイル ⇒ 書き出し形式 ⇒ Microsoft Word
ワードが立ち上がり、編集可能なワード文書が開きました。
多少手を加える必要はありますが、データ入力の必要はなさそうです。
テキストへの書き出し
テキストへの書き出しも実行してみました。
ファイル ⇒ 書き出し形式 ⇒ テキスト
メモ帳は開いたのですが、真っ白けのままでした。
編集可能になったPDFファイルを別名保存し、その後開いてから同じ事を実行すると
PDFファイルの内容がにコピーされたメモ帳が開きました。
ただし、テキストブロック毎にコピーされるようで、その順番は、内容の順になっていない事もあり手直しが必要です。
Wordeに書き出し
前の項で、Wordeに書き出しの紹介をしtました。
この時は、一度編集可能なファイルにした後にWordeへ書き出しを実行しました。
Wordeに書き出すだけの場合は、そのような手順は、必要ありません。
画像PDFファイルを、そのままワード形式に書き出す事が出来ます。
ファイル ⇒ 書き出し形式 ⇒ Microsoft Word
先の、ワード文書と同じ結果です。
このWordeファイルの内容をコピーして使うのが一番良いように思います。