書類をスキャナで読み取り画像として保存されたもの(.PNGファイル)を、 透明テキスト付きPDFにすることを考えております。
画像としての情報(?)のみが含まれたPDFファイルを作成すること、 及びOCR処理の手順までは把握しております。
それで、表題の件、OCR処理によって付加された「透明テキスト」を、 後で Acrobat XI Standard にて編集する方法を知りたいです。
OCR処理によって付加された透明テキストの内容には誤りが含まれる ことがそれなりにあり(それ自体はまぁそんなものだよなと思っています)、
さらにやっかいなことに、それがAcrobatによって「不明テキスト」として 扱われないことが多いのです。
なので、それを後から自分で修正できればと思っているのです。
Acrobat X (前バージョン) ですと、以下のwebページ:
How can I directly edit the "searchable text" layer to repair OCR suspects? (Scan & OCR)
で述べられている方法で可能なようです。これはつまり、
透明テキストを選択して色を一時的に(赤などに)変更して
編集(修正)し、
最後に透明に戻す
ということです。
Acrobat XI (現在の最新バージョン) では同じようにやろうとすると、以下のエラーダイアログ:
このページには編集可能なテキストが含まれていないか、スキャンしたコンテンツが含まれて
いることが検出されました。このような文書を編集するには、コンテンツ編集パネルの
「ファイルを書き出し」オプションを使用して、別の形式に変換してみてください。
が表示されてしまうのです…。
また、先述の通り、Acrobatによって「不明テキスト」として扱われない(NOT marked as suspect) ため、
Acrobat Help | Scan documents to PDF
https://helpx.adobe.com/acrobat/using/scan-documents-pdf.html
の「Correct OCR text in PDFs」に記載されている方法も利用できないです。
ということで、
OCR処理によって付加された「透明テキスト」を、後で
Acrobat XI Standard にて編集する方法
を、教えていただければと思います。
メッセージ編集者: [投稿者] Norihiko Murase (村瀬紀彦) レイアウトが崩れてしまったので修正しました。