Web Crawler

Web Crawler

Web Crawler

Het internet lijkt met al die pagina’s die naar elkaar verwijzen veel op een spinnenweb. Daarom is het niet vreemd dat er wordt gesproken van een ‘wereldwijd web’ ofwel www. Er zijn websites met webpagina’s, dan is het ook niet zo vreemd dat er ook een Web Crawler aanwezig is.

Deze Webcrawler, Webspider, Spiderbot of gewoon Spider functioneert als een spin in het web. Het is een stukje code dat domeinen, en de pagina’s die hierop gehuisvest zijn, uitleest met als voornaamste doel de beschikbare informatie te indexeren. Zonder Web Crawlers zouden Google, Bing, Yahoo of DuckDuckGo weinig te bieden hebben aan hun bezoekers.

Spinnen of voelsprieten?

Het is niet zo dat een Web Crawler op pad gaat, het hele internet indexeert en na afloop weer terugkeert naar de bron. Als dat het geval zou zijn, dan zou een nieuwsbericht wellicht volgend jaar pas op de zoekresultaten pagina verschijnen. Deze crawlers of bots gaan daarom anders te werk, en passen verschillende methoden toe om informatie op te vragen.

Zo kan een webmaster een site index aanbieden met alle URL’s op een domein. In dat geval is het nog steeds waarschijnlijk dat de Web Crawler de website indexeert, het kan de snelheid van indexering wel helpen te bevorderen. Er is ook een prioriteitstelling, met name websites die vaak worden geüpdatet zullen vaker bezocht worden. Denk aan nieuwssites. Het is ook mogelijk om zelf een nieuwe URL aan Google door te geven voor indexering, wanneer er bijvoorbeeld een bestaande pagina is voorzien van een update.

Hoe werkt het eigenlijk?

Met miljarden pagina’s op het internet is het geen eenvoudige opgave van een Web Crawler om alle pagina’s steeds opnieuw te indexeren. Het begint met een aantal ‘seeds’ te bekijken, dit zijn URL’s. Daar worden de individuele hyperlinks op geïndexeerd, dit heet de ‘crawl frontier’. Het is mogelijk dat er een kopie wordt gemaakt van de pagina’s, dit zijn ‘snapshots’ die gearchiveerd worden. Denk aan de website Archive.org die oudere versies van websites opslaat op een specifiek moment. De Web Crawler zal moeten bepalen waar de prioriteiten liggen, want de bandbreedte is niet onuitputtelijk. Daarom worden deze bots gemaakt op efficiëntie en snelheid.

Er bestaan vier vormen van crawling:
  • Selectie van de pagina’s die gedownload moeten worden.
  • Opnieuw bezoeken van pagina’s om te zien of er veranderingen zijn doorgevoerd.
  • Coördinatie van de verschillende Web Crawlers.
  • Limitatie om een server niet onnodig te belasten.
Pagina’s die niet openbaar toegankelijk zijn, zoals webpagina’s die tegen betaling zichtbaar worden gemaakt, zullen niet geïndexeerd worden.

Robots.txt

Met een robots.txt bestand in de root van een domein wordt aangegeven dat (delen van) een website niet geïndexeerd mogen worden. Er zijn diverse redenen om pagina’s wel openbaar te stellen voor bezoekers, maar onvindbaar te maken voor zoekmachines. Zoekmachine optimalisatie kan een rol spelen. Wanneer er bijvoorbeeld op een domein pagina’s aanwezig zijn die met elkaar concurreren. Het uitsluiten van soortgelijke pagina’s kan voordelig zijn voor de ranking van één pagina.

Een robots.txt bestand dient ter suggestie, het biedt geen garantie dat er gehoor aan wordt gegeven door een Web Crawler. Om werkelijke uitsluiting van crawlers, bots of spiders te garanderen zullen er dus andere maatregelen genomen moeten worden zoals een login pagina.
arrow_drop_up arrow_drop_down