Indexeren

Indexeren van je site, wat is dat?

Indexeren staat voor de registratie van webpagina’s met als doel deze op te nemen in de zoekresultaten pagina’s van search engines zoals Google, Bing of  DuckDuckGo. Deze indexatie wordt automatisch uitgevoerd door zogenaamde webcrawlers. De frequentie van deze indexaties verschilt per domein, het is daarom mogelijk dat de weergave in zoekmachines niet overeenstemt met de werkelijke pagina. Het is wel mogelijk voor een webmaster om een URL of domein handmatig voor indexatie aan te merken.

Robots blokkeren de toegang

Webcrawlers of spiders zijn geautomatiseerde programma’s die websites automatisch indexeren. Daarbij volgen ze alle toegankelijke links. Dit zijn koppelingen die iedereen vrij kan bezoeken. Pagina’s die beveiligd zijn met een wachtwoord, of om andere redenen niet direct te bezoeken zijn, worden uitgesloten van indexatie. In gevallen waar de webmaster bewust pagina’s niet vindbaar wil maken kan er een robots.txt bestand worden toegevoegd. Wanneer de crawler een dergelijk bestand tegenkomt zullen de betreffende pagina’s niet opgenomen worden in de database van de zoekmachine.

Wanneer wordt indexatie uitgevoerd?

Er is geen vaste frequentie waarop spiders langskomen om pagina’s te indexeren. Nieuwssites met een groot bereik zullen vaker gescand worden dan niche pagina’s die nauwelijks bezoekers trekken. Wanneer een pagina is aangepast, of wanneer er nieuwe pagina’s zijn toegevoegd aan een domein, dan kan de beheerder zelf een verzoek indienen om (opnieuw) geïndexeerd te worden. Dit gaat via de Google Search Console. Normaal gesproken geldt dit voor een specifieke URL, wanneer het een relatief kleine website betreft met maximaal duizend pagina’s volstaat het om alleen het domein in te voeren.

Google Index

Hoewel er meerdere zoekmachines bestaan, is Google toch de voornaamste speler om rekening mee te houden. Zelf vergelijken ze de Google index als die van een bibliotheek, met een lijst van alle boeken die beschikbaar zijn. Maar in plaats van boeken (websites) worden ook de individuele pagina’s geïndexeerd. Door “site:mywebsite.com” in te voeren kun je direct testen welke pagina’s van een domein in de index aanwezig zijn.

Een vergeetachtige zoekmachine

Naast de standaard manieren om een URL uit te sluiten voor indexatie, zijn er ook nog andere redenen waarom informatie niet vindbaar is via een zoekmachine. Zo kunnen er landen zijn die specifieke content niet accepteren, China is hier een bekend voorbeeld van. Er zijn manieren om dit soort censuur te omzeilen.

Bijvoorbeeld met een proxy server die doet voorkomen dat de gebruiker zich buiten China bevindt.

Ook zijn er methoden om het beeld in spiegelbeeld weer te geven om zo detectie te voorkomen. In China is Baidu een populaire zoekmachine, de grondlegger van deze dienst heeft de oprichters van Google geïnspireerd om een eigen logaritmische search engine te ontwikkelen.

Dan is er nog “het recht om vergeten te worden”, dat van kracht is in de Europese Unie. Dit is een persoonsgebonden recht, waarbij een persoon kan aangeven dat verwijzingen naar deze persoon verwijderd moeten worden uit zoekmachines. Er is druk uitgeoefend vanuit bijvoorbeeld Zweden om het zoekalgoritme aan te passen om bepaalde zoekresultaten lager te plaatsen. Google reageerde door de betreffende pagina onzichtbaar te maken voor internetgebruikers in Zweden. Het blijft wereldwijd een uitdaging om het open karakter van zoekmachines te combineren met nationale wetgeving en maatschappelijke belangen.

Ook bedrijven als Google kunnen zelfstandig bepalen om specifieke links niet weer te geven, of middels een ‘penalty’ lager in de ranking te positioneren.

Handig artikel voor je?