ある文章(画像ファイル)をOCR認識させてテキスト化したのですが、ファイルサイズが大きく、コンテンツの容量を調査してみたところ、「フォント」が90%以上を占めていました。
そこで、フォントの数を減らせばいいのかと思い、文書内のフォントをMS明朝で手作業で統合したところ、ファイルサイズが変わりませんでした。フォントがほとんどです。
さらに、試しにファイル内のテキストを全て削除してみたところ白紙のファイルのはずなのに、フォントの容量がかなりありました。
そこで
①そもそもOCR認識の際に、フォントを指定してテキスト認識することはできないか?(例えば認識したテキストを全てMS明朝体で保存するなど)
欲しいのはテキストデータなので、元の画像とは見た目が乖離してしも構いません。
②仮に①のような認識方法ができないとしても、手動でフォントの数を減らした後で、フォントの容量を小さくする方法はないでしょうか。つまり、実際にファイル内で使われているのはフォントは1 種類のはずなので、使われていないフォント情報?は削除したりすることで容量を減らすことができないか?
究極的な目標は、ファイルサイズを小さくすることです。