株式会社 SSKPC

A00884 2000/01/01
OCR optical character reader
紙に書かれた文字を読み取り、コンピューター上で自由に編集加工できる文字データに変換する機能または装置。光学式文字読み取り装置ともいう。長文入力の省力化、帳簿処理、自動翻訳などに利用される。  パソコンで利用する場合、画像を読み込むスキャナーと、画像を解析して文字データに変換するOCRソフトが必要になる。多くのスキャナーには市販のOCRソフトの簡易版が付属している。  市販OCRソフトには、メディアドライブの「e.Typist」、エー・アイ・ソフトの「読んde!! ココ」、米ケアの「OmniPage Pro J」などがある。価格は数千円から3万円程度が中心。このほか、名刺読み取り専用のOCRソフトなどもある。  読み取れるのは原則として活字。新聞のように横組、縦組みが混在したり、段組みが不規則な場合でもレイアウトを自動的に判断して読み取れるものが多い。ただし、レイアウトの判断ミスは多く、活字の書体によっても正確に読み取れる割合(認識率)が下がることがある。コピー原稿の場合、微妙な濃淡やゴミが影響することもある。手書き文字を読み取れるソフトも発売されているが、高価なうえ、精度はあまり高くない。  OCRの基本原理は、画像データと登録文字データの照合。文字の書かれた紙に光を当て、反射した光の強弱パターン(画像データ)とOCRソフトに登録されている基準文字データを比較して文字を識別、文字コードに変換して出力する。そのため、文字の作りが複雑で種類が多い言語ほど、認識に時間がかかり認識率も下がる傾向がある。  パソコンと400dpiのスキャナーを組み合わせ、新聞記事(原紙)のOCR処理をする場合の認識率は、高性能ソフトで98%程度。読み取り速度は最高レベルで1秒間に250文字程度。英文モードに限れば認識率は99%以上、読み取り速度も日本語より上がる。