OCR (Optical Character Recognition) er den prosessen som typen skrevet, trykt eller håndskrevne blir konvertert til maskinlesbare format. Her har vi å legge de skannede filene i formatet PDF for konvertering. OCR prosessen startet i år 1950 som endret mange ganger og fikk strukturen i stede stil. Det er hovedsakelig brukt i væpnede styrkene i USA. Dette kan vi si viktig oppfinnelse innen informasjonsteknologi. I dag også OCR er en utfordrende forsknings emne med mange kommersielle programmer.
OCR kan brukes i kommersielle applikasjoner som boken søk og indeksering, konvertering av dokumenter og også for postadresse anerkjennelse.
Strukturell analyse og mønstergjenkjenning er den første eller primær rute tatt for OCR-behandling. I denne bilder av forskjellige former kan enkelt konverteres til maskinlesbare format enkelt. I begynnelsen stadium av oppfinnelsen OCR ble kun brukt til bestemt skrift bare. Men nå kan det gjenkjenne tegn av alle tilgjengelige skrifter i språket.
Også noen av de berømte OCR-programvare er tilgjengelig i dag omfatter Ocrad, ABBYY Fine Reader, Tesseract og også Brainware. Blant disse ABBYY og Tesseract er svak forskjellig fra andre. Disse to kan tilby flerspråkstøtte. Hovedfordelen vi kan se her er kompatibilitet for å konvertere PDF-filer enkelt.
De fleste av OCR-programvare er lisensiert og kan gi PDF-utgang i en standard tekstdokument format. Også de aksepterer ulike bildeformater som er vanlig i dag som JPEG, GIF og TIFF. Mesteparten av OCR tilgjengelig i dag er spesielt laget for enkelte språk.
Dette kan vi si som skreddersydd for spesielle formål. Også noen OCR-programvare tilbudet utgang filer klar til å laste ned umiddelbart uten å vente mer tid eller sender e-post adresse og vente på konverterte data. Anmeldelser