コピー機・複合機のお役立ち情報
東証一部上場(証券コード:9416)株式会社ビジョン | 会社概要
キャノンの複合機には、OCRと呼ばれる光学式文字認識の処理を行うことで、サーチャブルPDFなどのファイルを作成できる機能がついています。サーチャブルPDFとは、スキャン時に読み込んだ文書内のテキストを検索できるものです。今回は、このサーチャブルPDFなどのファイルを作成する方法をご紹介します。
そして、このOCR処理を行う際に、うまくいかなかった場合の対処法についても見てみましょう。
■サーチャブルPDF/XPS/OOXMLを作成する方法
読み込んだデータをテキスト検索できるサーチャブルPDFやXPS、00XMLファイルを生成する場合、まずはOCR設定を行う必要があります。設定項目としては、原稿向きの自動検知を行うかどうか、ファイル名に抽出する文字数指定があります。原稿の向きを自動検知するようにすると、原稿の向きを自動的に回転して送信するなどしてくれます。
これらの設定が済んだら、早速OCR処理を行って、ファイル生成をかけてみましょう。
■ファイル形式によっては正しく処理されないことも
サーチャブルPDFを作成するときに、地色や字体、文字の大きさ、文字の傾きなどによっては、OCR処理が正しく行われない場合もあるといわれています。
誤認識が行われる理由としては、一般的に属性の設定、設定範囲の誤りだと考えられています。このような場合には、OCR処理の精度が向上するレイアウト編集や属性変更の行えるソフトを使うといいでしょう。
また、認識率は、コントラストの調整やエッジを強調させること、ゴミのような孤立店を除去することなどで向上するともいわれています。
自分で読み込むデータを調整して再度OCRにかけてみるというのもいいでしょう。
また、サーチャブルPDF化の際の設定時には、図形と認識するレベルを調整する項目があります。この辺りを調整して再度試してみるのもいいでしょう。
サーチャブルPDFなどのファイルは、アナログのデータをデジタル化しても文字検索ができるので、新しい文書管理の方法としても有益です。コツを覚えてOCR認識率を高めさせられるといいですね。
前の記事
封筒に宛名を印刷するには?次の記事
複合機にも地震対策を!これで転倒、移動、落下を防ぐ!