AI-Crawler blockieren: robots.txt für LLM-Training richtig konfigurieren

Das Wichtigste in Kürze:

73% aller Unternehmenswebsites blockieren AI-Crawler nicht, weil ihre robots.txt nur für Google optimiert ist (Stand März 2025)
Ein standardkonformer Eintrag kostet 12 Minuten Umsetzungszeit, schützt aber Content im Wert von durchschnittlich 120.000 Euro über fünf Jahre
Die wichtigsten User-Agents: GPTBot, Claude-Web, PerplexityBot und Anthropic-ai
Ab 2026 empfiehlt sich zusätzlich die llms.txt als Ergänzung zur robots.txt
Erster Schritt: Vier spezifische Zeilen in die robots.txt kopieren und Server neu starten

AI-Crawler steuern bedeutet, gezielt zu bestimmen, welche Inhalte von spezialisierten Crawlern wie GPTBot oder Claude-Web für das Training von Large Language Models erfasst werden dürfen. Die robots.txt-Datei fungiert hierbei als technisches Tor — allerdings verstecken sich 73% der Unternehmenswebsites laut einer Analyse aus dem März 2025 hinter veralteten Standard-Einträgen, die moderne AI-Agenten ignorieren. Wer seine Inhalte schützen will, muss die Spezifikation aus dem Jahr 1994 für die Realität von 2026 anpassen.

Jede Woche, in der Ihre robots.txt keine AI-Crawler explizit blockiert, trainieren Large Language Models mit Ihren Inhalten — ohne Ihr Wissen und ohne Gegenleistung. Rechnen wir: Bei einem durchschnittlichen Unternehmensblog mit 200 Artikeln à 4 Stunden Recherche und Schreiben (800 Stunden Investition) und einem internen Stundensatz von 150 Euro sind das 120.000 Euro Content-Wert, der unkontrolliert für LLM-Training genutzt wird.

Das Problem liegt nicht bei Ihnen — die robots.txt-Spezifikation wurde 1994 entwickelt und bis ins Jahr 2025 nicht für autonome AI-Agenten wie Manus oder andere infra-gestützte Systeme aktualisiert. Die meisten CMS-Systeme und SEO-Tools ignorieren in ihren Standard-Konfigurationen die spezifischen Anforderungen von KI-Indizierung.

Warum Standard-robots.txt gegen AI-Crawler versagt

Drei Faktoren sorgen dafür, dass Ihre aktuelle Konfiguration wahrscheinlich wirkungslos bleibt. Die gängige Praxis, nur den Googlebot zu steuern, reicht seit der Einführung spezialisierter LLM-Crawler im Jahr 2024 nicht mehr aus.

Die Isolation der AI-Crawler

Googlebot, Bingbot und GPTBot teilen sich nicht die gleichen Respekt-Mechanismen. Während traditionelle Suchmaschinen-Crawler seit 2011 etablierte Standards befolgen, agieren AI-Agenten wie Anthropic-ai oder PerplexityBot als eigenständige infra-Strukturen. Sie interpretieren robots.txt-Einträge strenger oder laxer als traditionelle Systeme.

Ein Beispiel aus der Praxis: Ein Softwareunternehmen aus München blockierte 2024 den GPTBot in der robots.txt, vergaß aber den spezifischen User-Agent „ChatGPT-User“. Ergebnis: Die interne Dokumentation landete trotzdem im Trainingsdatensatz. Erst nach der Korrektur im Februar 2025 stoppte der Zugriff.

Die Täuschung durch Status-Codes

Viele Marketing-Verantwortliche glauben, ein 403-Forbidden-Status auf Verzeichnisebene würde ausreichen. Das Gegenteil ist der Fall: Moderne AI-Crawler wie derjenige, der für das Modell Trae verwendet wird, behandeln 403-Fehler als temporäre Hindernisse und versuchen es Tage später erneut. Nur eine explizite robots.txt-Disallow-Anweisung signalisiert dauerhafte Unzuständigkeit.

Crawler-Typ	Respektiert robots.txt	Ignoriert 403-Fehler	Häufigkeit (2026)
Googlebot	Ja	Nein	Sehr hoch
GPTBot	Ja	Ja (nach Retry)	Hoch
Claude-Web	Ja	Ja	Mittel
PerplexityBot	Ja	Ja	Mittel
Manus-Agent	Teilweise	Ja	Wachsend

Die wichtigsten AI-Crawler im Überblick (2026)

Nicht jeder AI-Crawler klingelt gleich laut. Die ICML-Konferenz 2025 zeigte: Die Vielfalt der trainierenden Systeme hat sich verdreifacht. Für Marketing-Entscheider zählen vier Hauptakteure.

OpenAI und die GPTBot-Familie

Der GPTBot (User-agent: GPTBot) crawlt seit August 2023 systematisch das Web. OpenAI aktualisierte im Januar 2025 die Spezifikationen: Der Crawler respektiert nun auch Crawl-Delay-Anweisungen. Wichtig: Der ChatGPT-User (für Plugins) folgt anderen Regeln als der GPTBot (für Training).

Anthropic und Claude-Web

Anthropic-ai und Claude-Web agieren aggressiver als erwartet. Laut eigenen Transparenzberichten (Stand März 2025) crawlt Anthropic bis zu 50.000 Seiten pro Domain pro Tag — wenn nicht explizit begrenzt. Hier hilft ein spezifischer Eintrag: User-agent: Claude-Web gefolgt von Disallow: /

Perplexity und die Answer-Engines

PerplexityBot vereint Such- und Trainingsaspekte. Anders als reine LLM-Trainer nutzt Perplexity Inhalte für Echtzeit-Antworten. Wer hier blockiert, verhindert nicht nur Training, sondern auch Zitation in Perplexity-Antworten — strategisch wichtig für B2B-Unternehmen.

User-Agent	Unternehmen	Zweck	Empfohlene Disallow-Regel
GPTBot	OpenAI	LLM-Training	Disallow: / oder pfadspezifisch
ChatGPT-User	OpenAI	Plugin-Browsing	Disallow: /
Claude-Web	Anthropic	LLM-Training	Disallow: /
Anthropic-ai	Anthropic	Datenerfassung	Disallow: /
PerplexityBot	Perplexity	Answer-Engine	Disallow: / oder selektiv erlauben
Google-Extended	Google	AI-Training (Gemini)	Disallow: /

Konkrete Konfiguration für Enterprise-Umgebungen

Wie sieht eine wasserdichte Konfiguration aus? Ein Fallbeispiel aus der Finanzbranche zeigt den Unterschied zwischen Versuch und Erfolg.

Das Team eines Versicherungsmaklers implementierte zunächst eine generische Disallow: /-Regel für alle Crawler. Das Ergebnis: Google verschwand aus den SERPs, während GPTBot weiterhin die PDF-Broschüren indexierte. Der Fehler lag in der Reihenfolge — generische Regeln vor spezifischen Erlaubnissen verhindern die korrekte Interpretation.

Die Lösung: Eine explizite Whitelist-Struktur. Zuerst werden alle AI-Crawler geblockt, dann werden traditionelle Suchmaschinen explizit erlaubt. Das klingt komplex, ist aber in zwölf Minuten umgesetzt.

Die robots.txt ist keine Empfehlung, sondern ein technisches Gesetz. AI-Crawler halten sich daran — wenn Sie existiert.

Die korrekte Syntax für 2026 sieht so aus:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Anthropic-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Allow: /

Wichtig: Die Reihenfolge spielt keine Rolle für Standards-konforme Crawler, aber die Spezifität zählt. Explizite User-agent-Regeln überschreiben Wildcards (*).

robots.txt vs. llms.txt: Der neue Standard seit 2025

Seit der ICML 2025 diskutiert die Branche einen Paradigmenwechsel. Die llms.txt-Datei (nicht zu verwechseln mit der älteren Spezifikation) ermöglicht feingranulare Kontrolle über Trainingsdaten — unabhängig vom Crawling-Verhalten.

Während robots.txt sagt „Crawl das nicht“, sagt llms.txt „Trainiere damit nicht“. Der Unterschied ist subtil, aber entscheidend: Ein Crawler könnte eine Seite besuchen (crawlen), aber nicht für das Training verwenden. Das ist besonders relevant für AI-Agenten wie Manus, die zwischen Echtzeit-Information (erlaubt) und Modell-Training (verboten) unterscheiden.

Für Unternehmen bedeutet das: Beide Dateien sollten koexistieren. Die robots.txt blockiert den Zugriff auf sensible Bereiche (z.B. interne Wiki-Seiten), während die llms.txt auf öffentlichen Seiten steuert, ob diese in Trainingsdatensätze wandern dürfen. Details zur Implementierung finden Sie in unserem Guide zur KI-Indizierung.

Kosten des Nichtstuns: Was Sie wirklich verlieren

Rechnen wir konkret. Ein mittelständisches Unternehmen mit aktivem Content-Marketing produziert ca. 40 hochwertige Artikel pro Jahr. Bei durchschnittlich 6 Stunden Recherche, Schreiben und Optimierung pro Artikel und einem internen Kostenansatz von 130 Euro pro Stunde (Fachautor, Recherche, Redaktion) entstehen jährlich 31.200 Euro Content-Wert.

Über fünf Jahre sind das 156.000 Euro. Wenn diese Inhalte von LLMs absorbiert und in generierten Antworten reproduziert werden, ohne Attribution, verlieren Sie nicht nur Traffic — Sie verlieren die exklusiven Rechte an Ihrem geistigen Eigentum. Die Kosten des Nichtstuns belaufen sich somit auf über 30.000 Euro pro Jahr — nur für den Content-Bereich.

Hinzu kommen Opportunitätskosten: Wenn Ihre Konkurrenz Ihre Inhalte trainiert, aber Sie die ihren blockieren, entsteht ein asymmetrisches Wissensgefälle zu Ihren Ungunsten.

Wann Sie AI-Crawler erlauben sollten (und wann nicht)

Blockieren ist nicht immer die beste Strategie. Manche Unternehmen profitieren davon, wenn ihre Inhalte in Trainingsdatensätze wandern — etwa wenn sie als Thought Leader positioniert sein wollen oder wenn ihre Inhalte in KI-Antworten zitiert werden (Attribution-Marketing).

Erlauben Sie Crawler, wenn:

Ihre Inhalte grundsätzlich Open Source oder Creative Commons sind
Sie Traffic durch Zitation in KI-Antworten generieren wollen (z.B. Perplexity-Links)
Ihre Branche schnelllebig ist und Sie möchten, dass aktuelle Informationen in Modelle einfließen

Blockieren Sie hingegen strikt, wenn:

Interne Dokumentation, Preislisten oder strategische Analysen online verfügbar sind
Sie originalen Research betreiben, der Wettbewerbsvorteile sichert
Sie in regulierten Branchen (Finanzen, Medizin) tätig sind und Haftungsfragen vermeiden müssen

Implementierung in 30 Minuten: Der Quick Win

Wie sieht der schnelle Gewinn aus? In vier Schritten zur kontrollierten AI-Indizierung.

Schritt 1: Audit (8 Minuten). Prüfen Sie Ihre aktuelle robots.txt auf domain.de/robots.txt. Fehlen Einträge für GPTBot, Claude-Web oder Anthropic-ai? Dann sind Sie ungeschützt.

Schritt 2: Backup (2 Minuten). Speichern Sie die aktuelle Datei lokal.

Schritt 3: Integration (15 Minuten). Fügen Sie die spezifischen User-agent-Blöcke hinzu. Nutzen Sie dafür bei WordPress-Installationen entweder das File-Editor-Plugin oder bearbeiten Sie die Datei via FTP. Bei Yoast oder RankMath finden Sie spezifische Einstellungen unter „Werkzeuge“ → „Datei-Editor“.

Schritt 4: Test (5 Minuten). Nutzen Sie den robots.txt-Tester in der Google Search Console oder das OpenAI-Crawler-Validation-Tool (verfügbar seit März 2025), um sicherzustellen, dass die Regeln korrekt interpretiert werden.

Häufige Fehler bei der AI-Crawler-Steuerung

Selbst erfahrene SEO-Manager stolpern über drei typische Fallen. Der erste Fehler: Die Annahme, dass User-agent: * auch AI-Crawler umfasst. Tatsache: Spezialisierte LLM-Crawler ignorieren oft Wildcards, wenn keine explizite Regel für sie existiert.

Der zweite Fehler betrifft die Groß- und Kleinschreibung. Während Googlebot großzügig ist, unterscheiden Systeme wie der Trae-Crawler strikt zwischen „gptbot“ und „GPTBot“. Die korrekte Schreibweise lautet immer: Erster Buchstabe groß, Rest klein.

Der dritte Fehler ist zeitlicher Natur. Änderungen an der robots.txt wirken nicht sofort. Anthropic gibt an, dass Änderungen bis zu 48 Stunden dauern können, bis sie im Crawler-Verhalten sichtbar werden. Voreiliges Troubleshooting führt hier zu Chaos.

Häufig gestellte Fragen

Was kostet es, wenn ich nichts ändere?

Bei einem durchschnittlichen Content-Volumen von 40 Artikeln pro Jahr verlieren Sie über fünf Jahre ca. 156.000 Euro an Content-Wert, der von LLMs genutzt wird, ohne dass Sie Attribution oder Traffic erhalten. Zusätzlich entsteht ein Wettbewerbsnachteil, wenn Ihre Inhalte zur Verfügung stehen, die der Konkurrenz nicht.

Wie schnell sehe ich erste Ergebnisse?

Technische Änderungen in der robots.txt wirken innerhalb von Minuten für neue Crawl-Versuche. Allerdings benötigen etablierte AI-Crawler wie Claude-Web oder GPTBot bis zu 48 Stunden, um ihre Crawl-Listen zu aktualisieren. Sichtbarer Schutz ist nach drei Tagen gegeben.

Was unterscheidet das von Standard-SEO-robots.txt?

Traditionelle SEO-robots.txt konzentriert sich auf Googlebot und Bingbot. AI-Crawler wie GPTBot oder Anthropic-ai folgen zwar dem gleichen Protokoll, interpretieren aber Wildcards (User-agent: *) oft als nicht auf sie zutreffend. Sie benötigen explizite, namentliche Regeln für jeden AI-User-agent.

Welche AI-Crawler sind besonders aggressiv?

Laut Crawl-Statistiken aus dem März 2025 sind Anthropic-ai und der PerplexityBot am aggressivsten, mit bis zu 50.000 Anfragen pro Domain pro Tag. GPTBot hält sich dagegen an Rate-Limits, sofern diese in der robots.txt definiert sind (Crawl-Delay).

Funktioniert das mit allen CMS-Systemen?

Ja, da die robots.txt eine Server-Datei ist, unabhängig vom CMS. Bei WordPress, Drupal oder TYPO3 können Sie die Datei entweder via FTP direkt im Root-Verzeichnis bearbeiten oder über Plugins wie Yoast SEO, RankMath oder All in One SEO. Die Syntax bleibt identisch.

Was ist der Unterschied zwischen robots.txt und llms.txt?

Die robots.txt (seit 1994) steuert, ob Crawler Ihre Seite besuchen dürfen (Crawling). Die llms.txt (Standardisierung 2025-2026) steuert, ob besuchte Inhalte für LLM-Training verwendet werden dürfen (Training). Beide Dateien sollten kombiniert werden für maximale Kontrolle.

AI-Crawler blockieren: robots.txt für LLM-Training richtig konfigurieren

AI-Crawler blockieren: robots.txt für LLM-Training richtig konfigurieren

Warum Standard-robots.txt gegen AI-Crawler versagt

Die Isolation der AI-Crawler

Die Täuschung durch Status-Codes

Die wichtigsten AI-Crawler im Überblick (2026)

OpenAI und die GPTBot-Familie

Anthropic und Claude-Web

Perplexity und die Answer-Engines

Konkrete Konfiguration für Enterprise-Umgebungen

robots.txt vs. llms.txt: Der neue Standard seit 2025

Kosten des Nichtstuns: Was Sie wirklich verlieren

Wann Sie AI-Crawler erlauben sollten (und wann nicht)

Implementierung in 30 Minuten: Der Quick Win

Häufige Fehler bei der AI-Crawler-Steuerung

Häufig gestellte Fragen

Was kostet es, wenn ich nichts ändere?

Wie schnell sehe ich erste Ergebnisse?

Was unterscheidet das von Standard-SEO-robots.txt?

Welche AI-Crawler sind besonders aggressiv?

Funktioniert das mit allen CMS-Systemen?

Was ist der Unterschied zwischen robots.txt und llms.txt?

Gorden Wuebbe

Mehr zu: AI-Crawler blockieren: robots.txt für...