Alle geheimen onthuld
Robots.txt, geef instructies aan zoekmachines
Website beheerders kunnen instructies geven aan zoekrobots van zoekmachines (ook wel crawlers, spiders door een robots.txt bestand neer te zetten in de beginfolder van hun website. Dit wordt ook wel ‘The Robots Exclusion Protocol‘ genoemd.
Met robots.txt scherm je geen directories af!! Het is puur bedoelt als hulpmiddel om zoekrobots beter te laten indexeren en de gebruiker een beetje invloed te geven op de inhoud van zoekpagina’s. Op het internet zijn echter niet alleen de bekende zoekgiganten actief, iedere goede programmeur kan een zoekrobot schrijven die robots.txt negeert en alsnog de “afgeschermde” gegevens indexeert. Hier is sowieso niets tegenop gewassen. Zoekmachine optimalisatie is een heel ander gebied dan beveiliging.
Voorbeeld:
Je bent een forumbeheerder en wil niet dat deze terug te vinden zijn in zoekmachines, tevens heb je nog een mapje met tijdelijke bestanden en een losse pagina die je wilt afschermen. Er komt elke keer ook een rare zoekrobot langs waarvan je niet wilt dat deze je pagina’s ook indexeert.
Het werkt als volgt: een zoekrobot zoals Google of Yahoo wil één van jouw webpagina’s bezoeken. Voordat de robot dit doet benadert hij eerst http://www.voorbeeld.nl/robots.txt en vindt bijvoorbeeld de volgende instructies:
User-agent: *
Disallow: /pagina.html
Disallow: /tijdelijke-bestanden
Disallow: /forum
Sitemap: http://www.voorbeeld.nl/sitemap.xml.gz
Crawl-delay: 10
User agent: RareZoekRobot
Disallow: /
Allow: /jij-rare-robot.html
User-agent: *
Deze regel geeft aan dat de instructies gelden voor alle zoekmachines. Zoekmachines sturen een identificatie mee om kenbaar te maken wie ze zijn. De zoekmachine van Google identificeert zichzelf als “Googlebot”, lekker makkelijk. De robot van Google-News identificeert zichzelf als: “Googlebot-News”, Google afbeelding robot als “Googleb-Image”. Een grote lijst met bekende User-Agents is te vinden op http://www.user-agents.org.
Sitemap: http://www.voorbeeld.nl/sitemap.xml.gz
Hiermee geef je aan op welke locatie je sitemap bestand staat. Kijk voor meer informatie over sitemaps op de pagina “Alle informatie over sitemaps“.
Disallow: /pagina.html
Om bepaalde losse pagina’s of hele directories uit te sluiten van indexeren door zoekmachines kun één of meerdere regels met niet toegestane directories toevoegen. Hiermee kun je bijvoorbeeld een forum of een pagina met gevoelige (wel openbare) data niet laten opnemen in zoekmachine resultaten.
Crawl-delay: 10
Meerdere grote zoekmachines ondersteunen “crawl-delay” oftewel, vertraging tussen succesvolle bezoeken naar dezelfde server. Als jouw website dus uit 20 pagina’s bestaat zal google dus 10 seconden wachten tussen elk verzoek en zal het indexeren zo’n 200 seconden duren.
Allow: pagina.html
Door bijvoorbeeld te zeggen: “Disallow: /” wil je dat er geen een directory wordt genegeerd, je kunt echter weer zeggen “Allow: /contact.html”. Dit scheelt vaak een hoop typwerk als je maar 1 directory wilt toestaan.