er den primære Document Imaging verktøy. Det er en enhet som konverterer papirbilder, trykt tekst, håndskrift eller et objekt som en pryd til et digitalt bilde. En skanner leser rød-grønn-blå farge (RGB) data, og disse dataene blir deretter behandlet med skanneren algoritme for å gjøre justeringer for ulike eksponeringsforholdene.
Bildekvaliteten avhenger av fargedybde, oppløsning og tetthetsområdet, så vel som kvaliteten av algoritmen. Fortsatt forskning har finjustert algoritmen i den grad at bilder kan nå være bedre enn originalene. OCR
eller Optical Character Recognition er en teknologi for å konvertere bilder av tekstdokumenter til maskinlesbar tekst. Mens en høy grad av nøyaktighet er oppnådd erkjenner trykt eller maskinskrevet tekst, er evnen til å gjenkjenne ulike typer håndskrift fortsatt imperfect.
A menneskelig vurdering er vanligvis nødvendig for å sikre 100 prosent nøyaktighet av de konverterte document.Computer systemer lagre det skannede bilder av dokumenter, konvertert til maskinlesbar tekst, i sine arkiver. Men hvordan kan noen av disse bestemte dokumenter raskt hentes? Hvor antall dokumenter er få, dette kan ikke være et slikt problem. Men når dette tallet går inn tusener eller millioner, å finne et bestemt dokument gjør faktisk bli en problem.It er her at indeksering
kommer inn i bildet.
Indeksdata knyttet til dokumenter tillate søke-motor stil spørringer som skal utføres for å finne bestemte dokumenter fra blant massen av lagret documents.Search-motor indeksering kan være så enkelt som fulltekstindeksering - hvor hvert ord i et dokument er indeksert -OR nøkkelord eller tag indeksering der bare noen få koder knyttet til dokumentet er indeksert. Disse kodene er valgt å korrekt identifisere innholdet av document.Tag indeksering forutsetter at alle relevante koder vil være knyttet til hvert enkelt dokument.
Hvis dette ikke er tilfelle, kan det hende at dokumentet ikke funnet selv når relevant for mange søke queries.Even bilder og andre typer ikke-tekstfiler kan merkes og indexed.Beyond bruker dokumentet tenkelig verktøy for å produsere digitalt innhold - bilder eller tekst - dokument tenkelig verktøy også eksisterer for å produsere ikke-digital utgang på kopimaskin
er et dokument tenkelig verktøy som p