SEO · 4 min lezen
Robots.txt
Een robots.txt-bestand vertelt zoekmachines welke pagina's ze mogen bezoeken en welke niet. Eén verkeerde regel en Google crawlt je hele site niet meer.
Inhoudsopgave
Je hebt net een nieuwe website live gezet en wacht op je eerste bezoekers via Google. Maar Google vindt je niet. Of erger: Google crawlt pagina's die je juist niet in de zoekresultaten wilt. Dat kan je robots.txt-bestand zijn. Het is een klein tekstbestandje op de root van je website, bereikbaar via jouwsite.nl/robots.txt, maar de impact is enorm. Dit bestand bepaalt welke deuren je openzet voor Google Search Console en andere zoekmachines, en welke je gesloten houdt.
De uitsmijter van je website
Stel je voor: je hebt een restaurant en aan de achterdeur staat een uitsmijter met een lijst. Leveranciers en personeel mogen via de achterdeur naar binnen. Gasten niet. Die gebruiken de voordeur. Je robots.txt-bestand werkt precies zo. Zoekmachines zoals Google zijn netjes en lezen de lijst zodra ze je site bezoeken. Staat een map of pagina op de "niet welkom"-lijst? Dan slaan ze hem over.
De basis van een robots.txt ziet er zo uit:
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://jouwsite.nl/sitemap.xml User-agent: * geldt voor alle bots. Disallow: /admin/ blokkeert de adminmap. Allow: / laat de rest open. Je kunt ook specifieke zoekmachines aanspreken, zoals User-agent: Googlebot als je Google anders wilt behandelen dan Bing.
Eén belangrijke kanttekening: robots.txt is een verzoek, geen technisch slot. Nette zoekmachines zoals Google respecteren het. Kwaadwillende bots negeren het gewoon. Wil je echt gevoelige data afschermen, gebruik dan AVG -conforme toegangsbeveiliging, geen robots.txt.
Een verkeerde regel en je bent onzichtbaar
Hier komt het moment waarop veel websites de mist ingaan. Dit is de robots.txt van een site die volledig onzichtbaar is voor Google:
User-agent: *
Disallow: / Eén puntkomma op de verkeerde plek, of een slash te veel, en Google crawlt je hele site niet meer. Dit klinkt als een fout die je toch wel ziet aankomen, maar het is juist een klassieke fout na een redesign of migratie. De oude staging-omgeving had alles geblokkeerd, de nieuwe site pakte die instellingen over, niemand controleerde het.
Wat je dus zeker moet blokkeren:
- Inlog- en adminpagina's zoals
/wp-adminof/admin - Interne zoekresultaten zoals
/zoeken?q=... - Gefilterde en gesorteerde pagina's in webshops
- Staging- en testomgevingen
- Dubbele URL's die al worden afgehandeld met een canonical URL
Wat je nooit moet blokkeren:
- Pagina's die je in Google wilt hebben
- Je sitemap
- Afbeeldingen en CSS die Google nodig heeft om je pagina te begrijpen
Een goed ingestelde robots.txt helpt ook je crawlbudget . Google heeft per site een beperkt aantal pagina's dat hij per dag bezoekt. Verspil je dat budget aan lege filterurls en adminpagina's, dan heeft Google minder ruimte over voor de pagina's die er echt toe doen.
Zo controleer je robots.txt met echte tools
Nadat je je robots.txt hebt aangepast, controleer je hem altijd. Ga eerst gewoon naar jouwsite.nl/robots.txt in je browser. Zie je Disallow: /? Dan blokkeert je site alles en zal Google je niet indexeren.
Voor een gedetailleerdere test gebruik je de robots.txt-tester in Google Search Console . Je typt een URL in en de tool vertelt je precies of Googlebot die pagina mag bezoeken of niet. Handig als je wilt weten of een specifieke productpagina of blogpost bereikbaar is.
Met tools als Screaming Frog of Ahrefs kun je je hele site crawlen en zien welke pagina's worden geblokkeerd. Dat geeft een compleet overzicht, zeker op grotere websites waar je niet handmatig elke URL kunt nakijken.
Ga je een nieuwe website of webshop laten maken ? Zorg dan dat robots.txt van dag één correct staat. Bij Laanify controleren we dit als onderdeel van de technische oplevering bij elke website laten maken . We zorgen er ook voor dat je sitemap juist wordt doorgegeven aan Google, zodat indexering snel gaat.
Wil je weten of je huidige robots.txt goed staat? Pak je SEO-optimalisatie serieus en begin met een technische audit. Kleine bestanden, groot effect.
Klein bestand, grote gevolgen
Robots.txt is misschien wel het kleinste bestand op je website, maar de gevolgen van een fout zijn enorm. Een paar regels te veel en Google ziet je site niet meer. Een paar regels te weinig en Google verspilt zijn tijd aan pagina's die jou geen bezoekers opleveren. Het is de moeite waard om dit bestand één keer goed in te stellen en daarna te bewaken, zeker na elke grote aanpassing aan je site.
Veelgestelde vragen
Wat is het verschil tussen robots.txt en een noindex-tag?
Robots.txt blokkeert de toegang tot een pagina: Google mag hem niet eens bezoeken. Een noindex-tag staat op de pagina zelf en zegt: bezoek gerust, maar neem me niet op in de zoekresultaten. Blokkeer je een pagina via robots.txt, dan leest Google de noindex-tag niet, want hij komt er gewoon niet in.
Moet ik een robots.txt hebben?
Nee, het is niet verplicht. Als je geen robots.txt hebt, gaat Google ervan uit dat alles gecrawld mag worden. Maar voor bijna elke site is het verstandig om er wel een te hebben, al is het maar om je adminpagina's te beschermen en je sitemap door te geven.
Kan robots.txt mijn site beschermen tegen hackers?
Nee. Robots.txt is een openbaar bestand dat iedereen kan lezen, ook hackers. Het blokkeert nette zoekmachines, maar kwaadwillende bots negeren het. Voor beveiliging heb je een SSL-certificaat , sterke wachtwoorden en beveiligingsplugins of -instellingen nodig.
Wat doet de sitemap-regel in robots.txt?
De regel Sitemap: https://jouwsite.nl/sitemap.xml vertelt Google direct waar je sitemap staat. Dat is niet verplicht, maar het versnelt de indexering van nieuwe pagina's. Google vindt je sitemap dan meteen bij het eerste bezoek, in plaats van dat hij hem zelf moet opzoeken.
Hoe vaak moet ik mijn robots.txt controleren?
Check je robots.txt na elke grote aanpassing aan je website: een redesign, een migratie, een nieuwe CMS-installatie of een wijziging in je mapstructuur. Zo voorkom je dat een oude testinstelling ongemerkt je hele site blokkeert.
Veelgestelde vragen
Wat is het verschil tussen robots.txt en noindex?
Robots.txt blokkeert de toegang: Google mag die pagina niet bezoeken. Een noindex-tag staat op de pagina zelf en zegt: bezoek gerust, maar indexeer me niet. Als je robots.txt gebruikt om een pagina te blokkeren, leest Google de noindex-tag niet eens, want hij komt er niet in.
Kan ik mijn site blokkeren voor Google met robots.txt?
Ja: zet Disallow: / onder User-agent: *. Dat blokkeert alle crawlers voor je hele site. Doe dit alleen op een testomgeving. Op je live site is dit een catastrofale vergissing die je uit de zoekresultaten gooit.
Hoe controleer ik of mijn robots.txt correct werkt?
Via de robots.txt-tester in Google Search Console. Je vult een URL in en de tool laat zien of Googlebot die URL mag bezoeken op basis van je huidige robots.txt. Gebruik ook Screaming Frog om geblokkeerde paginas in bulk te controleren.
Wat is een disallow-regel?
Een disallow-regel staat in robots.txt en vertelt een zoekmachine welke URL of map hij niet mag crawlen. Disallow: /wp-admin/ blokkeert bijvoorbeeld alle paginas die beginnen met /wp-admin/. Je kunt zo specifiek of breed zijn als je wilt.
Gerelateerde begrippen
Klaar voor een website die klanten oplevert?
Vertel kort wat je nodig hebt. Je krijgt binnen 24 uur een eerlijk antwoord en een vaste prijs.