Robots.txt

Robots.txt, hoe werkt dat?

Niet alles op het internet is gemaakt voor mensen. Je zou zelfs kunnen stellen dat de meeste data voor computers is gemaakt. Denk aan de code achter websites of metadata die informatie geeft aan webcrawlers.

Een andere benaming voor webcrawler is bot, web bot of robot. Het gaat hierbij niet om metalen figuren met armen en benen maar stukjes software die websites analyseren. Om deze bots de weg te wijzen kan er gebruik worden gemaakt van een robots.txt bestand op de server.

Dit helpt bots de juiste pagina’s wel of juist niet te indexeren, het kan ook voorkomen dat programma’s de werking van een website verstoren.

Waar komt robots.txt vandaan?

De Nederlanders Martijn Koster is een pionier op het gebied van zoeken op het internet. Hij ontwikkelde de eerste zoekmachine Aliweb in 1993, toch is zijn naam lang niet zo bekend als andere internet pioniers als Tim Berners-Lee.

Naast de eerste zoekmachine ontwikkelde Koster ook de robots.txt standaard. Charles Stross schreef slechte webcode die leidde tot een DOS (Denial Of Service) aanval op de server van Koster.

Om dit in de toekomst te voorkomen schreef Koster robots.txt wat later een algemene standaard zou worden voor web crawlers. Het zou tot 2019 duren voordat Google het Robots Exclusion Protocol tot officiële standaard zou uitroepen volgens de Internet Engineering Task Force.

Hoe werkt robots.txt?

Als een webmaster informatie of instructies wil delen met een crawler of bot kan dit opgenomen worden in een robots.txt. Dit bestand wordt in de root van de website geplaatst.

Het betreft een tekstbestand met instructies die volgens een specifiek formaat zijn opgesteld. Robots die de instructies volgen zoeken eerst naar dit bestand voordat ze de rest van de hiërarchische structuur van de website uitlezen. Als dit bestand ontbreekt dan zal de bot aannemen dat de web developer geen restricties plaatst op het crawlen van de website.

Waarom robots.txt gebruiken?

Het doel van een website online plaatsen is om bezocht te worden, anders zouden de pagina’s binnen een intranet gepubliceerd worden.

Toch zijn er zeker redenen om specifieke pagina’s uit te sluiten voor crawlers. Denk aan een login pagina voor abonnees of een bedankpagina na aankoop. Het heeft geen zin voor deze pagina’s om op te duiken in de zoekresultaten van Google of een andere search engine. Met een robots.txt bestand kunnen pagina’s die niet relevant zijn voor indexering worden uitgesloten.

Een bot kan gehoor geven aan de inhoud van robots.txt maar dit hoeft niet. Het bestand kan ook volledig genegeerd worden. Het dient vooral als wegwijzer maar het is geen blokkade. De meeste zoekmachines zullen de informatie in een robots.txt uitlezen en deze informatie gebruiken tijdens het crawlen.

Het Internet Archive negeert deze instructies bewust omdat het deze dienst hindert bij het archiveren van content op het web. De termen ‘allow’ en ‘disallow’ zijn indicatief en hoeven niet opgevolgd te worden.

Handig artikel voor je?