Quantcast
Channel: Adobe Community : ディスカッション一覧 - Acrobatコミュニティフォーラム (Japan)
Viewing all articles
Browse latest Browse all 4261

PDFのテキストを取り出したいのですが文字化けします

$
0
0

PDFのテキストを取り出したいのですが文字化けします

 

クライアントから原稿として支給されたPDFから

テキストを取り出したいのですが文字化けしてしまいます。

Acrobatで開いたときは可読状態なのですが、

テキストを選んでコピー → テキストエディタにペーストすると

文字化けしてしまうのです。

IllustratorでPDFを直接開く等いろいろ試してみたのですが

どれも文字化けしてしまいお手上げ状態です。

 

PDFにセキュリティは設定されておらず、

テキストは制限なくコピーできるはずです。

 

全てが文字化けするわけではありません。

Acrobatのプロパティ → フォントで確認すると

文字化けするのは

 

HGMaruGothicMPRO(埋め込みサブセット)など

種類:TureType

エンコーディング:ビルトイン

 

文字化けしないのは

 

KozGoPro-Regular(埋め込みサブセット)など

種類:Type 1(CID)

エンコーディング:Identity-H

 

となっています。

このエンコーディングが「ビルトイン」がアヤシイと思いググってみたところ

「ビルトイン」で同じように悩んでいる方がいらっしゃるようなのですが、

「そういうPDFは文字化けするから注意しよう」とか

「画像に変換してOCR認識させてしまおう」などの記事がヒットし、

直接の解決方法を見つけることができませんでした。

 

元データはIllustratorで作っているらしいのですが、

諸般の事情で支給できないと言われてしまいました。

 

何か良い方法をご存じの方、ご教示ください。

または、解決方法なんて存在しないから諦めろというトドメでも結構です。

 

4-文字化け.jpg

 

【PDFのプロパティ】

1-概要.jpg

2-セキュリティ.jpg

3-フォント.jpg

 

 

 

【当方の環境】

Mac OS 10.6.8

Acrobat X Pro(10.1.14)

Illustrator CS3〜CS6

Jedit X 1.47

テキストエディット 1.6(264)

プレビュー 5.0.3(504.1)

FireFox(38.0.5)

Safari 5.1.10(6534.59.10)

 

 

【試して失敗した方法】

Acrobatで開いてテキストを選択しコピー、Jeditにペースト。

(Jeditのエンコーディングは日本語(Mac OS))

OS付属のテキストエディットにペースト。

 

プレビューで開いてコピー、Jeditとテキストエディットにペースト。

 

PDFを直接Illustratorで開く。

フォントがインストールされていても文字化け。

 

Acrobatの別名保存 → リッチテキスト形式で保存、Jeditで開く。

開くときにエンコーディングを自動判定にせず

日本語以外(全く関係なさそうな外国語)にも切り替えてみましたが全滅。

 

Acrobatの別名保存 → テキスト(アクセシブル) → Jeditで開く。

(エンコーディングは自動判定/日本語(Mac OS))

 

Acrobatの別名保存 → テキスト(プレーン) → Jeditで開く。

内容が空っぽでした。

 

Acrobatの別名保存 → EPS → Illustrator CS5.1で開く。

文字化けしてない!と喜んだのもつかの間、

全てアウトライン化されていました…。

 

Acrobatの別名保存 → HTML → FireFoxとSafariで開く。

開いた後、文字エンコーディングを切り替えてみましたが、

どれも文字化け状態。

 

メッセージ編集者: rrm 2015/06/15 19:11画像を変更しました


Viewing all articles
Browse latest Browse all 4261

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>