21% van de grootste Nederlandse websites blokkeert AI-crawlers.
Wij scanden op 10 juni 2026 de 500 populairste .nl-domeinen. Van de 393 bereikbare sites zet 1 op de 5 minstens één AI-crawler volledig buiten de deur. Alle grote nieuwsmedia zitten dicht. En van de sites die AI wél binnenlaten, is vrijwel niemand opgebouwd om geciteerd te worden.
Wat 393 bereikbare topsites laten zien.
blokkeert minstens één AI-crawler volledig in robots.txt
blokkeert GPTBot, de crawler van OpenAI (de meest geblokkeerde)
heeft een llms.txt, de wegwijzer voor AI-systemen
heeft FAQ-schema op de homepage, het meest citeerbare formaat
Vier sites zetten hun robots.txt zelfs volledig dicht voor álle crawlers, waaronder digid.nl en delpher.nl. Dat is voor die sites een logische keuze. Voor een commerciële site betekent dezelfde regel: onvindbaar in elke AI-assistent.
Het onderzoek in 3 minuten.
Welke AI-crawlers worden het vaakst geblokkeerd?
Per crawler het percentage van de 393 bereikbare topsites dat hem volledig blokkeert (Disallow: / in robots.txt):
| Crawler | Van | Geblokkeerd door |
|---|---|---|
| GPTBot | OpenAI (training ChatGPT) | 16.3% |
| CCBot | Common Crawl (datasets voor veel AI-modellen) | 16.3% |
| Bytespider | ByteDance / TikTok | 13.7% |
| ClaudeBot | Anthropic (Claude) | 13.5% |
| Google-Extended | Google (Gemini-training) | 12.5% |
| PerplexityBot | Perplexity | 11.5% |
| ChatGPT-User | OpenAI (live bezoeken vanuit ChatGPT) | 11.2% |
| anthropic-ai | Anthropic (legacy) | 11.2% |
| Applebot-Extended | Apple (Apple Intelligence) | 10.9% |
| Meta-ExternalAgent | Meta (Llama) | 8.4% |
| OAI-SearchBot | OpenAI (ChatGPT Search) | 7.9% |
Vrijwel alle grote nieuwsmedia zetten AI buiten de deur.
NOS, NU.nl, AD, RTL, de Volkskrant, Trouw en Het Parool blokkeren elk 10 van de 11 onderzochte AI-crawlers. NRC is de uitzondering: die blokkeert er maar 2 (OAI-SearchBot en PerplexityBot).
Voor uitgevers is dat een begrijpelijke onderhandelingspositie: hun content is hun product, en over licenties voor AI-training wordt wereldwijd gesteggeld. Maar het heeft een direct gevolg voor wat jij in een AI-assistent te zien krijgt. Als een AI-systeem een vraag over Nederland beantwoordt, kán het de grootste Nederlandse nieuwsbronnen vaak niet als bron gebruiken.
Het gat dat dit opent: de vragen blijven komen, de vaste bronnen doen niet mee. AI-assistenten citeren dan de bronnen die wél open en citeerbaar zijn. Dat kunnen ook kleinere, specialistische sites zijn. Precies zo werd een van onze eigen nichesites bron in ChatGPT.
79% laat AI binnen. Bijna niemand geeft AI iets te citeren.
Het tweede deel van de scan keek naar citatie-gereedheid: staat er op de homepage iets dat een AI-systeem direct kan uitlezen en doorgeven? Het antwoord is bijna overal nee.
heeft FAQ-schema (machine-leesbare vraag-en-antwoord-markup) op de homepage
heeft een datatabel op de homepage, het meest letterlijk overgenomen formaat
heeft überhaupt structured data op de homepage staan
Dit zijn nota bene de 500 best bezochte sites van Nederland, met de grootste budgetten en teams. Als dáár 98,5% geen citeerbaar vraag-en-antwoord-formaat voert, kun je uittekenen hoe het er bij de gemiddelde mkb-site voorstaat. De wedstrijd om AI-citaties in Nederland is nog niet eens begonnen, en dat is goed nieuws voor iedereen die nu instapt.
Hoe we dit hebben gemeten.
- Steekproef: de 500 hoogst genoteerde .nl-domeinen uit de Tranco-ranglijst (een wetenschappelijke top-1-miljoen van populairste domeinen), gescand op 10 juni 2026. 393 daarvan waren publiek bereikbaar; alle percentages gaan over die 393.
- Blokkade: een crawler telt als geblokkeerd bij een volledige blokkade (Disallow: /) voor die specifieke user-agent in robots.txt, inclusief gestapelde user-agent-regels. Gedeeltelijke blokkades telden niet mee, dus de werkelijke beperking ligt eerder hoger dan lager.
- Citatie-factoren: FAQ-schema, structured data en tabellen zijn alleen op de homepage gemeten. Dieperliggende pagina's kunnen ze wel hebben; dit is een indicator, geen volledige site-audit.
- Zelfde meetlat: de scan draait op exact dezelfde engine als onze gratis AI-citatie-check, deterministisch en zonder AI-modellen in de meting.
Dit onderzoek mag je citeren of overnemen met bronvermelding: Writgo Media, juni 2026, writgo.nl/onderzoek/ai-crawlers-nederland. Journalisten kunnen via contact de volledige dataset opvragen.
Vragen over dit onderzoek.
Hoeveel Nederlandse websites blokkeren AI-crawlers?+
Van de 500 populairste .nl-domeinen (Tranco-ranglijst, gescand op 10 juni 2026) blokkeert 21,1% van de 393 bereikbare sites minstens één AI-crawler volledig in robots.txt. 15% blokkeert er drie of meer.
Welke AI-crawler wordt het vaakst geblokkeerd?+
GPTBot van OpenAI en CCBot van Common Crawl staan bovenaan: elk geblokkeerd door 16,3% van de bereikbare sites. Daarna volgen Bytespider (13,7%), ClaudeBot (13,5%) en Google-Extended (12,5%).
Blokkeren Nederlandse nieuwssites AI?+
Vrijwel allemaal. NOS, NU.nl, AD, RTL, de Volkskrant, Trouw en Het Parool blokkeren 10 van de 11 onderzochte AI-crawlers. NRC is de uitzondering en blokkeert er maar 2.
Hoeveel sites hebben een llms.txt?+
Slechts 26 van de 393 bereikbare sites (6,6%) hebben een llms.txt, het voorgestelde wegwijzer-bestand voor AI-systemen. Daaronder zitten marktplaats.nl, kvk.nl, toto.nl en ajax.nl.
Wat betekent dit voor mijn eigen website?+
Dat de concurrentie om AI-citaties nog vrijwel open ligt. De meeste sites laten AI-crawlers binnen maar geven ze niets citeerbaars: 1,5% heeft FAQ-schema op de homepage en 6,4% een datatabel. Wie zijn site nu wél citeerbaar opbouwt, concurreert met bijna niemand.
Test in 20 seconden hoe jouw site scoort op dezelfde factoren.
De gratis check scant je site op exact dezelfde punten als dit onderzoek: AI-crawler-toegang, FAQ-schema, structured data, llms.txt en meer. Je ziet per factor wat er mist.
