Robots-txt-WordPress-bij-voorbeeld-deze-code-gebruiken

Het Robots.txt bestand in je WordPress website vertelt zoekmachines welke mappen en content zij mogen crawlen / indexeren. Mappen die op ‘allow’ staan, blijven toegankelijk voor zoekmachines, zoals de Google bot, terwijl WordPress mappen die op ‘disallow’ staan niet worden geïndexeerd door Google (of andere zoekmachines). Ook biedt Robots.txt de mogelijkheid op de ChatGPT bot en ChatGPT-user bot geen toestemming te geven om je content te laten inlezen door AI. De ChatGPT scraper of crawler schendt immers het auteursrecht van journalisten, auteurs, uitgevers en websiteeigenaren. En daar is veel discussie over. Je kunt je website beschermen door ChatGPT geen toegang te geven.

Bekijk ook onze SEO-diensten Utrecht.

Bekijk hier op Webredactie blog mijn Robots.txt WordPress voorbeeld. NB: Plaats een robot.txt bestand altijd in de (eerste map =) hoogste map van je website (in de root).

Robots.txt WordPress juiste instellingen voor allow en disallow en ChatGPT bots blokkeren

Vanwege de huidige trends zoals GDPR-naleving, AI-technologie en websiteveiligheid, is beschermen van je website tegen ongenodigde bots en crawlers van toegenomen belang. Bescherm de copyrights van je blog tegen AI.

In dit bericht een voorbeeld van een Robots.txt bestand voor je WordPress website. De instellingen zijn zodanig dat zoekmachines alleen je openbare content indexeren en niet afgeschermde delen van je website. Voor Nederlands publiek gaat het erom dat de Robots.txt file vooral goed ingesteld moet staan voor Google, omdat bijna iedereen Google Zoeken gebruikt, en veel minder vaak andere zoekmachines zoals Bing, Yahoo, Safari. Wat de goede instellingen zijn voor een Robots.txt bestand, kun je zien in dit WordPress robots.txt voorbeeld van Contentking.

Blokkeer OpenAI Robots op je WordPress Website via Robots.txt

Je kunt als website eigenaar de OpenAI’s ChatGPT en GPTBot gebruikersrobots blokkeren zodat deze niet zomaar je website gaat crawlen om je content en data van je WordPress-website te benutten. Dit is simpel te doen door de robots.txt file aan te passen of om daarvoor een specifieke WordPress-plugin te gebruiken. Dit als alternatief voor het handmatig aanpassen van je robots.txt bestand, zie WordPress plugin gebruiken. De plugin maakt deze aanpassingen automatisch, wat het proces vergemakkelijkt. Voeg onderstaande code toe aan je Robots.txt file (dit kan ook via Cpanel, je hostpartij of via FileZilla gratis FTP software. Als je de toegangsgegevens hebt.)

Extra toe te voegen code aan Robots.txt file WordPress:

Use this code in your robots.txt file to block ChatGPT from crawling your website, see source Open AI:

# OpenAI ChatGPT + GPTBot user blokkeren WordPress website Robots file

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Robots.txt WordPress voorbeeld

(Je kunt dit ook geautomatiseerd aanleggen via een plugin: Better Robots.txt.)

User-agent: *

Allow: /web-stories/

Disallow: /wp-admin/

Disallow: /wp-login.php

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/

Disallow: /readme.txt

Disallow: /search/

Disallow: *?s=*

Disallow: *&p=*

Disallow: *&preview=*

Disallow: /author/

Disallow: /404-error/

Disallow: /*/json/

Disallow: /json

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Sitemap: https://www.[jouwdomeinnaam].nl/sitemap_index.xml


Ps. de reden dat Json erin staat, kun je hier nalezen, bij Moz.

Je kunt je Robots.TXT testen

Er is een testtool van Google Search Console waarmee je kunt testen of je de Robot.txt file goed gebruikt op je site. De test accepteert het uitsluiten van Open AI ChatGPT bots om je website te doorzoeken naar content.

Blokkeren van AI crawlers via robot.txt

Het is ook mogelijk om sommige commerciele crawlers en AI crawlers te weren van je website. Als je dat doet, zijn deze voorbeelden over te nemen. Je kunt dan ideeën uit onderstaande code in de Robots file, zoals hierboven geschetst, toevoegen. Bijv. SemRush en Ahrefs zou je kunnen blokkeren zodat hun crawler niet jouw website kan uitlezen op links die erop staan. Je concurrenten zouden deze dan ook kunnen weten. SpyFu en SE Ranking kunne er trouwens nog bij….

User-agent: *
Disallow:


User-agent: exabot
Disallow: /

User-agent: gigabot
Disallow: /

User-agent: rogerbot
Disallow: /

User-agent: xenu
Disallow: /

User-agent: AhrefsBot
Disallow: /

User-agent: badbot
Disallow: /

User-agent: dotbot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: BLEXBot
Disallow: /

User-agent: MJ12bot
Disallow: /

User-agent: True_Robot
Disallow:/

# you can add as many bots as you'd like.

Ps. Je kunt dit ook nog geautomatiseerd aanleggen via een plugin: Better Robots.txt.

Traceren van fouten in de wijze waarop Google Bot je website Crawled

Mocht je willen weten, hoe Google Bot of andere crawlers echt met je site omgaan? Dan kun je een diepe analyse uitvoeren van serverfouten. Dit is je error_log in Cpanel. Of andere hostingsoftware waarin errors verzameld worden. Je verzamelt dan alle data van GoogleBot van 1 etmaal. Je kunt dan zelf zien of Google alle pagina’s kan vinden. En welke andere crawlers actief zijn. Hier zijn verschillende bronnen over. Deze video en een aantal links onder de video. Hoe je de data automatisch kunt analyseren, wordt uitgelegd via de link van MOZ.

Links over serverfouten in relatie tot blokkeren van crawlers in Robots.txt

Error_log in CPanel vinden (hostingzijde website)
Hoe analyseren Error_log export

https://moz.com/blog/server-log-essentials-for-seo

Robots.txt theorie verder uitgediept

Bekijk de website van Contentking voor de achterliggende uitleg bij deze code.

Succes met WordPress!

Gerben G. van Dijk.

Gerben G van Dijk
Volg hem