Onderzoek · juli 2026 · eigen data

22% van de grootste Nederlandse websites blokkeert AI-crawlers.

Wij scanden op 1 juli 2026 de 500 populairste .nl-domeinen. Van de 398 bereikbare sites blokkeert 22% minstens één automatische AI-crawler volledig. Veel grote nieuwsmedia sluiten meerdere crawlers uit. Van de sites die AI wél binnenlaten, is vrijwel niemand opgebouwd om geciteerd te worden.

← Onderdeel van de Staat van AI-vindbaarheid in Nederland

De kerncijfers

Wat 398 bereikbare topsites laten zien.

22,4%

blokkeert minstens één automatische AI-crawler volledig in robots.txt

17,6%

blokkeert GPTBot, de crawler van OpenAI (de meest geblokkeerde)

6,5%

heeft een llms.txt, de wegwijzer voor AI-systemen

1,5%

heeft FAQ-schema op de homepage, het meest citeerbare formaat

4 sites zetten hun robots.txt zelfs volledig dicht voor álle crawlers, waaronder digid.nl en delpher.nl. Dat is voor die sites een logische keuze. Voor een commerciële site betekent dezelfde regel: onvindbaar in elke AI-assistent.

Sinds de vorige meting (juni 2026)

Sites die AI-crawlers blokkeren: +1,3 procentpunt. FAQ-schema op de homepage: +0 procentpunt. Dit onderzoek herhalen we, zodat je de beweging over tijd ziet.

Per crawler

Welke AI-crawlers worden het vaakst geblokkeerd?

Per crawler het percentage van de 398 bereikbare topsites dat hem volledig blokkeert (Disallow: / in robots.txt):

Crawler	Van	Geblokkeerd door
GPTBot	OpenAI (training ChatGPT)	17,6%
CCBot	Common Crawl (datasets voor veel AI-modellen)	17,1%
Bytespider	ByteDance / TikTok	15,1%
ClaudeBot	Anthropic (Claude)	14,8%
Google-Extended	Google (Gemini-training)	13,8%
PerplexityBot	Perplexity	12,1%
ChatGPT-User	OpenAI (live bezoeken vanuit ChatGPT)	11,8%
anthropic-ai	Anthropic (legacy)	11,8%
Applebot-Extended	Apple (Apple Intelligence)	11,3%
Meta-ExternalAgent	Meta (Llama)	9,5%
OAI-SearchBot	OpenAI (ChatGPT Search)	8,5%

De opvallendste groep

Vrijwel alle grote nieuwsmedia zetten AI buiten de deur.

In de laatste scan sloten veel grote Nederlandse nieuwsmedia meerdere zoek- en trainingscrawlers uit. De precieze aantallen staan in de open dataset en bewegen mee met iedere nieuwe editie.

Voor uitgevers is dat een begrijpelijke onderhandelingspositie: hun content is hun product, en over licenties voor AI-training wordt wereldwijd gesteggeld. Maar het heeft een direct gevolg voor wat jij in een AI-assistent te zien krijgt. Als een AI-systeem een vraag over Nederland beantwoordt, kán het de grootste Nederlandse nieuwsbronnen vaak niet als bron gebruiken.

Het gat dat dit opent: de vragen blijven komen, de vaste bronnen doen niet mee. AI-assistenten citeren dan de bronnen die wél open en citeerbaar zijn. Dat kunnen ook kleinere, specialistische sites zijn. Precies zo werd een van onze eigen nichesites bron in ChatGPT.

De paradox

78% laat AI binnen. Bijna niemand geeft AI iets te citeren.

Het tweede deel van de scan keek naar citatie-gereedheid: staat er op de homepage iets dat een AI-systeem direct kan uitlezen en doorgeven? Het antwoord is bijna overal nee.

1,5%

heeft FAQ-schema (machine-leesbare vraag-en-antwoord-markup) op de homepage

6,0%

heeft een datatabel op de homepage, het meest letterlijk overgenomen formaat

51,3%

heeft überhaupt structured data op de homepage staan

Dit zijn nota bene de 500 best bezochte sites van Nederland, met de grootste budgetten en teams. Als dáár 98,5% geen citeerbaar vraag-en-antwoord-formaat voert, kun je uittekenen hoe het er bij de gemiddelde mkb-site voorstaat. De wedstrijd om AI-citaties in Nederland is nog niet eens begonnen, en dat is goed nieuws voor iedereen die nu instapt.

Methode

Hoe we dit hebben gemeten.

Steekproef: de 500 hoogst genoteerde .nl-domeinen uit de Tranco-ranglijst (een wetenschappelijke top-1-miljoen van populairste domeinen), gescand op 1 juli 2026. 398 daarvan waren publiek bereikbaar; alle percentages gaan over die 398.
Blokkade: een crawler telt als geblokkeerd bij een volledige blokkade (Disallow: /) voor die specifieke user-agent in robots.txt, inclusief gestapelde user-agent-regels. Gedeeltelijke blokkades telden niet mee, dus de werkelijke beperking ligt eerder hoger dan lager.
Citatie-factoren: FAQ-schema, structured data en tabellen zijn alleen op de homepage gemeten. Dieperliggende pagina's kunnen ze wel hebben; dit is een indicator, geen volledige site-audit.
Botsoort: automatische zoek- en trainingscrawlers vormen het hoofdcijfer. ChatGPT-User, Claude-User en Perplexity-User zijn bezoeken die een gebruiker start; regels voor die agents rapporteren we apart en tellen niet als gewone crawlerblokkade.
Zelfde meetlat: de scan draait op exact dezelfde engine als onze gratis AI-citatie-check, deterministisch en zonder AI-modellen in de meting. We herhalen de scan periodiek; dit is editie 2.

Dit onderzoek mag je citeren of overnemen met bronvermelding: Writgo Media, juli 2026, writgo.nl/onderzoek/ai-crawlers-nederland. Journalisten kunnen via contact de volledige dataset opvragen.

Veelgestelde vragen

Vragen over dit onderzoek.

Hoeveel Nederlandse websites blokkeren AI-crawlers?+

Van de 500 populairste .nl-domeinen (Tranco-ranglijst, gescand op 1 juli 2026) blokkeert 22,4% van de 398 bereikbare sites minstens één automatische zoek- of trainingscrawler volledig in robots.txt. 16% blokkeert er drie of meer.

Welke AI-crawler wordt het vaakst geblokkeerd?+

GPTBot van OpenAI en CCBot van Common Crawl staan bovenaan: elk geblokkeerd door 17,6% van de bereikbare sites. Daarna volgen Bytespider (15,1%), ClaudeBot (14,8%) en Google-Extended (13,8%).

Blokkeren Nederlandse nieuwssites AI?+

Veel grote nieuwsmedia sluiten meerdere zoek- en trainingscrawlers uit. Dat kan een bewuste uitgeverskeuze zijn. Door gebruikers gestarte agents meten we apart, omdat een robots.txt-regel daarvoor niet hetzelfde betekent als voor een automatische crawler.

Hoeveel sites hebben een llms.txt?+

Slechts 26 van de 398 bereikbare sites (6,5%) hebben een llms.txt, het voorgestelde wegwijzer-bestand voor AI-systemen. Daaronder zitten marktplaats.nl, kvk.nl, toto.nl en ajax.nl.

Wat betekent dit voor mijn eigen website?+

Dat de concurrentie om AI-citaties nog vrijwel open ligt. De meeste sites laten AI-crawlers binnen maar geven ze niets citeerbaars: 1,5% heeft FAQ-schema op de homepage en 6,0% een datatabel. Wie zijn site nu wél citeerbaar opbouwt, concurreert met bijna niemand.

Gebruik deze data

Vrij te downloaden, citeren en insluiten.

Deze meetdata is open (CC BY 4.0). Gebruik 'm in je eigen artikel of rapport, met bronvermelding naar Writgo Media.

Download CSV Download JSON

Sluit de grafiek in op je eigen site

De grafiek update automatisch mee met elke nieuwe meting. Plak deze code waar je 'm wilt tonen:

Embed-code

<iframe src="https://writgo.nl/embed/ai-crawlers.html" width="100%" height="420" loading="lazy" title="AI-crawler-blokkades in Nederland — Writgo Media" style="border:1px solid #dcd5c4;border-radius:16px"></iframe>
<p style="font:12px sans-serif">Bron: <a href="https://writgo.nl/onderzoek/ai-crawlers-nederland">AI-vindbaarheid in Nederland — Writgo Media</a></p>

Verder lezen uit het blog

64 van de 393 populairste Nederlandse websites blokkeren GPTBot actiefLees het artikel →Je AI-vindbaarheid check begint bij robots.txt, niet bij je contentLees het artikel →llms.txt: wat het is en hoe je het insteltLees het artikel →

En jouw site?

Test in 20 seconden hoe jouw site scoort op dezelfde factoren.

De gratis check scant je site op exact dezelfde punten als dit onderzoek: AI-crawler-toegang, FAQ-schema, structured data, llms.txt en meer. Je ziet per factor wat er mist.

Doe de gratis AI-citatie-check Bekijk het recept · €37