Definice OCR

OCR je zkratka optického rozpoznávání znaků, což je výraz v angličtině, který lze přeložit jako optické rozpoznávání znaků . Tento pojem se používá v počítačové vědě k označení postupu, který umožňuje digitalizovat text skenerem .

Případ OCR je velmi zvláštní, protože dává počítači dovednost, která je základem pro většinu lidí: čtení. Za zmínku stojí, že pro každého z nás není snadný úkol, i když se v našem případě obvykle naučíme to dělat od velmi mladého věku, a proto získáváme velkou dovednost, i když musíme čelit kaligrafii obtížné pochopit.

Navzdory pokroku technologie OCR stále čelí několika problémům. Získání digitálního systému, který rozpozná ručně psaný text, je například poměrně obtížný. Tento proces obvykle narazí na nevýhody segmentování různých textových jednotek. Totéž se stane, když se slova objeví velmi blízko sebe.

Jiné poruchy OCR se mohou objevit, pokud mezi slovem a pozadím není dostatek kontrastu. Předpokládejme, že text napsaný černými písmeny je vytištěn na šedém listu: je pravděpodobné, že proces OCR nemůže rozlišit písmena a slova .

Nezapomínejme, že stejně jako akce, která je zjevně tak jednoduchá jako jít po ulici, vyžaduje řadu komplementárních opatření k vyloučení překážek a ochraně naší integrity, čtení tištěného textu je výsledkem několika simultánních průzkumných úkolů, které provádíme takřka nevědomě, ale oni nás vezmou.

Když se setkáváme s textem, náš vlastní systém OCR je zodpovědný za vyhledávání a rozpoznávání titulu, identifikaci odstavců, interpunkčních znamének, mezer mezi slovy a zkratkami, mezi jinými prvky a snahou o pochopení zdrojů příliš ozdobná nebo neuspořádaná a dokončit informace v oblastech, které utrpěly jakýkoli typ opotřebení, jako je barva inkoustu nebo chybějící kus papíru.

Doporučená