Writgo Media #AIDRIVEN
Onderzoek · juni 2026 · eigen data

21% van de grootste Nederlandse websites blokkeert AI-crawlers.

Wij scanden op 10 juni 2026 de 500 populairste .nl-domeinen. Van de 393 bereikbare sites zet 1 op de 5 minstens één AI-crawler volledig buiten de deur. Alle grote nieuwsmedia zitten dicht. En van de sites die AI wél binnenlaten, is vrijwel niemand opgebouwd om geciteerd te worden.

De kerncijfers

Wat 393 bereikbare topsites laten zien.

21,1%

blokkeert minstens één AI-crawler volledig in robots.txt

16,3%

blokkeert GPTBot, de crawler van OpenAI (de meest geblokkeerde)

6,6%

heeft een llms.txt, de wegwijzer voor AI-systemen

1,5%

heeft FAQ-schema op de homepage, het meest citeerbare formaat

Vier sites zetten hun robots.txt zelfs volledig dicht voor álle crawlers, waaronder digid.nl en delpher.nl. Dat is voor die sites een logische keuze. Voor een commerciële site betekent dezelfde regel: onvindbaar in elke AI-assistent.

Liever kijken?

Het onderzoek in 3 minuten.

Per crawler

Welke AI-crawlers worden het vaakst geblokkeerd?

Per crawler het percentage van de 393 bereikbare topsites dat hem volledig blokkeert (Disallow: / in robots.txt):

CrawlerVanGeblokkeerd door
GPTBotOpenAI (training ChatGPT)16.3%
CCBotCommon Crawl (datasets voor veel AI-modellen)16.3%
BytespiderByteDance / TikTok13.7%
ClaudeBotAnthropic (Claude)13.5%
Google-ExtendedGoogle (Gemini-training)12.5%
PerplexityBotPerplexity11.5%
ChatGPT-UserOpenAI (live bezoeken vanuit ChatGPT)11.2%
anthropic-aiAnthropic (legacy)11.2%
Applebot-ExtendedApple (Apple Intelligence)10.9%
Meta-ExternalAgentMeta (Llama)8.4%
OAI-SearchBotOpenAI (ChatGPT Search)7.9%
De opvallendste groep

Vrijwel alle grote nieuwsmedia zetten AI buiten de deur.

NOS, NU.nl, AD, RTL, de Volkskrant, Trouw en Het Parool blokkeren elk 10 van de 11 onderzochte AI-crawlers. NRC is de uitzondering: die blokkeert er maar 2 (OAI-SearchBot en PerplexityBot).

Voor uitgevers is dat een begrijpelijke onderhandelingspositie: hun content is hun product, en over licenties voor AI-training wordt wereldwijd gesteggeld. Maar het heeft een direct gevolg voor wat jij in een AI-assistent te zien krijgt. Als een AI-systeem een vraag over Nederland beantwoordt, kán het de grootste Nederlandse nieuwsbronnen vaak niet als bron gebruiken.

Het gat dat dit opent: de vragen blijven komen, de vaste bronnen doen niet mee. AI-assistenten citeren dan de bronnen die wél open en citeerbaar zijn. Dat kunnen ook kleinere, specialistische sites zijn. Precies zo werd een van onze eigen nichesites bron in ChatGPT.

De paradox

79% laat AI binnen. Bijna niemand geeft AI iets te citeren.

Het tweede deel van de scan keek naar citatie-gereedheid: staat er op de homepage iets dat een AI-systeem direct kan uitlezen en doorgeven? Het antwoord is bijna overal nee.

1,5%

heeft FAQ-schema (machine-leesbare vraag-en-antwoord-markup) op de homepage

6,4%

heeft een datatabel op de homepage, het meest letterlijk overgenomen formaat

51,4%

heeft überhaupt structured data op de homepage staan

Dit zijn nota bene de 500 best bezochte sites van Nederland, met de grootste budgetten en teams. Als dáár 98,5% geen citeerbaar vraag-en-antwoord-formaat voert, kun je uittekenen hoe het er bij de gemiddelde mkb-site voorstaat. De wedstrijd om AI-citaties in Nederland is nog niet eens begonnen, en dat is goed nieuws voor iedereen die nu instapt.

Methode

Hoe we dit hebben gemeten.

  • Steekproef: de 500 hoogst genoteerde .nl-domeinen uit de Tranco-ranglijst (een wetenschappelijke top-1-miljoen van populairste domeinen), gescand op 10 juni 2026. 393 daarvan waren publiek bereikbaar; alle percentages gaan over die 393.
  • Blokkade: een crawler telt als geblokkeerd bij een volledige blokkade (Disallow: /) voor die specifieke user-agent in robots.txt, inclusief gestapelde user-agent-regels. Gedeeltelijke blokkades telden niet mee, dus de werkelijke beperking ligt eerder hoger dan lager.
  • Citatie-factoren: FAQ-schema, structured data en tabellen zijn alleen op de homepage gemeten. Dieperliggende pagina's kunnen ze wel hebben; dit is een indicator, geen volledige site-audit.
  • Zelfde meetlat: de scan draait op exact dezelfde engine als onze gratis AI-citatie-check, deterministisch en zonder AI-modellen in de meting.

Dit onderzoek mag je citeren of overnemen met bronvermelding: Writgo Media, juni 2026, writgo.nl/onderzoek/ai-crawlers-nederland. Journalisten kunnen via contact de volledige dataset opvragen.

Veelgestelde vragen

Vragen over dit onderzoek.

Hoeveel Nederlandse websites blokkeren AI-crawlers?+

Van de 500 populairste .nl-domeinen (Tranco-ranglijst, gescand op 10 juni 2026) blokkeert 21,1% van de 393 bereikbare sites minstens één AI-crawler volledig in robots.txt. 15% blokkeert er drie of meer.

Welke AI-crawler wordt het vaakst geblokkeerd?+

GPTBot van OpenAI en CCBot van Common Crawl staan bovenaan: elk geblokkeerd door 16,3% van de bereikbare sites. Daarna volgen Bytespider (13,7%), ClaudeBot (13,5%) en Google-Extended (12,5%).

Blokkeren Nederlandse nieuwssites AI?+

Vrijwel allemaal. NOS, NU.nl, AD, RTL, de Volkskrant, Trouw en Het Parool blokkeren 10 van de 11 onderzochte AI-crawlers. NRC is de uitzondering en blokkeert er maar 2.

Hoeveel sites hebben een llms.txt?+

Slechts 26 van de 393 bereikbare sites (6,6%) hebben een llms.txt, het voorgestelde wegwijzer-bestand voor AI-systemen. Daaronder zitten marktplaats.nl, kvk.nl, toto.nl en ajax.nl.

Wat betekent dit voor mijn eigen website?+

Dat de concurrentie om AI-citaties nog vrijwel open ligt. De meeste sites laten AI-crawlers binnen maar geven ze niets citeerbaars: 1,5% heeft FAQ-schema op de homepage en 6,4% een datatabel. Wie zijn site nu wél citeerbaar opbouwt, concurreert met bijna niemand.

En jouw site?

Test in 20 seconden hoe jouw site scoort op dezelfde factoren.

De gratis check scant je site op exact dezelfde punten als dit onderzoek: AI-crawler-toegang, FAQ-schema, structured data, llms.txt en meer. Je ziet per factor wat er mist.