txt-filen vil bestå av flere poster, hver gir instruksjoner for en bestemt søk-bot. Et rekord vil vanligvis bestå av to komponenter, den første kalles user-agent og er der navnet på søk-bot er oppført. Den andre linjen consits av en eller flere "nekte" linjer. Disse linjene fortelle WebCrawler hvilke filer eller mapper som ikke skal indekseres (dvs. en cgi-bin-mappen) .Hvis du har en nettside og ikke har en robots.txt-fil, kan du opprette en enkelt. Som nevnt tidligere, filene er ren tekst, så bare åpne opp notepad og lagre filen på robots.txt.
De fleste nettredaktører kan bruke en rekord som vil gjelde for alle robotsøkeprogrammer. Når du har åpnet notepad skriver du inn følgende: User-agent: * Forby: Den "*" Denne regelen gjelder for alle roboter. I dette eksemplet, er det ingenting som er oppført i tillat linje. Dette forteller roboten å indeksere hele nettstedet. Du kan også skrive inn et mappebanen her som "/privat" hvis det er en mappe som ikke skal indekseres. Dette kan være svært nyttig hvis du fortsatt teste en del av din nettside eller er en del er fortsatt under construction.Now at du vet hva som skal gå inn i robots.
txt-filen, er det flere vanligste feilene folk gjør når du lager disse filene. Oppgi aldri merknader eller kommentarer til filen som disse elementene kan skape forvirring for WebCrawler. I tillegg bør det formatet alltid være user-agent på første linje, etterfulgt av forby (e). Ikke omvendt rekkefølge. En annen vanlig feil gjort innebærer å bruke feil sak. Hvis nektet mappen er /privat, sørg robots.txt-filen inneholder ikke mappen som /Privat. Det virker som en veldig liten sak, men det vil føre til problemer hvis det gjøres feil. Endelig, er det ingen Tillat kommando.
Du kan ikke fortelle WebCrawler hva du skal se på, bare det ikke å se at.If du fortsatt er nysgjerrig på robots.txt-filen kan du finne mange flere komplekse eksempler på nettet. Bare prøv en a