:OCR


分類:OCRの誤認識

形が似た別の漢字だが、キーボード入力の漢字変換では起こりえない誤字。これらはOCR(光学文字読み取り)の誤認識によるものだろう。 出てくる例をみると、個人ページには少なく、大企業やお役所に多い。おそらく、印刷物だった過去の書類を、機械的に電子化してウェブに公開する過程で発生したものだろう。

漢字と似たカタカナは非常に気付きにくいので要注意です。

  • 口(くち)/ロ(ろ)
  • 工(こう)/エ(え)
  • 力(ちから)/カ(か)
  • 卜(ぼく)/ト(と)

人間が読んでも気付かないくらいなので、実用上は問題なさそうに思えますが、このような誤記をしていると、正当なキーワードでの検索に引っかかりません。これでは読んでもらう機会を減らしますので、とくに企業のウェブサイトにとっては宣伝効果を損なうことになります。

2014年6月9日追記

「"原子力(りょく)"ではなく"原子カ(か)"で検索すると出てくるpdf資料が「検索避けの隠蔽工作か!?」と一部で話題。 - Togetterまとめ
この件から、OCR誤認識は紙媒体からのスキャンに限らず、PCから直接生成されたPDFでもテキスト保護設定されていると、本来のテキストが抽出できないため、GoogleのシステムによりOCRでテキスト情報が付加され、この現象が発生することがわかりました。

メニュー

#include(): Included already: :MenuCategory

最新の20件

2021-07-29 2010-03-16 2015-12-25 2014-03-22 2013-08-08 2013-07-25 2013-04-17 2012-12-26 2012-12-11 2012-12-10 2012-10-26 2012-08-14 2012-08-10 2012-05-21 2011-12-15 2011-08-22

訪問者

  • 合計:4559
  • 現在:1
  • 今日:2
  • 昨日:1

edit