ChatGPT den Zugriff auf die eigene Website verbieten

Inzwischen dürften die meisten Menschen, die für das Internet Texte schreiben oder auf andere Weise als Content Creator tätig sind, auch in Kontakt mit ChatGPT gekommen sein.

Gründe, sich mit ChatGPT zu beschäftigen, gibt es viele. Vielleicht hat jemand Angst, in Zukunft durch ChatGPT oder ähnliche Systeme seinen Job zu verlieren. Oder er sieht es positiv und lotet die neuen Möglichkeiten aus, um diese sinnvoll bei seiner Arbeit zu nutzen.

Auf jeden Fall werden Systeme wie ChatGPT mit Daten gefüttert, tonnenweise Daten. Das nennt man „trainieren“ oder „anlernen“.

Und wo kommen alle diese Daten her?

Tja, von Internetseiten.

Und da denkt sich so mancher Content Creator: „Hey, das ist meine Arbeit! Wieso kann sich ChatGPT einfach die Inhalte holen und damit ein eigenes Geschäftsmodell umsetzen, ohne mich finanziell daran zu beteiligen?“

Gute Frage!

Website mit Hilfe der robots.txt blockieren

Es gibt einen Mechanismus, mit dem man bestimmte Systeme von der eigenen Website ausschließen kann, nämlich eine kleine Textdatei mit dem Dateinamen robots.txt.

Wichtig ist hierbei zu wissen, dass die Direktiven in der Datei robots.txt nur Empfehlungen darstellen. Es gibt keine Garantie dafür, dass sich Spider oder Crawler an diese Anweisungen halten.

Lest gerne ein paar Grundlagen zur robots.txt in einem älteren Artikel von mir.

Wenn man jetzt weiß, wie der Name des Webcrawlers von OpenAIs ChatGPT ist, kann man das entsprechend in dieser Datei eintragen.

GPTBot

Wofür steht eigentlich dieses ominöse GPT?

Das steht für Generative Pretrained Transformer.

Schön, und was bedeutet das?

Das würde leider den Umfang des Artikels sprengen.

Wichtig ist: pretrained. Es werden also keine Echzeitdaten verwendet. Das bei ChatGPT zu Grunde liegende Language Modell muss stattdessen schon vorher mit vorhanden Daten trainiert werden.

Und generative. Das deutet an, dass hier eben keine Text- oder Bildfragmente irgendwie neu zu einer Collage zusammengestückelt werden, sondern völlig neue Ergebnisse „generiert“ werden.

Wenn ihr mehr wissen wollt, dann schaut gerne im Internet nach. Unzählbare Webseiten beschäftigen sich mit diesem Thema.

Wir können den GPTBot also mit Hilfe der robots.txt aussperren. Das geht durch folgende zwei Zeilen:

User-agent: GPTBot
Disallow: /

Ich möchte erneut darauf hinweisen, dass dies nur funktioniert, wenn der entsprechende Crawler diese Anweisung respektiert. Bei ChatGPT ist das aktuell der Fall.

Es gibt aber neben ChatGPT jede Menge anderer Systeme, die man gegebenenfalls einzeln blockieren muss.

Google nutzt für Bard den Common Crawl Crawler CCBot. Auch KIs wie Stable Diffusion, das sich jeder auf seinem eigenen PC kostenlos herunterladen und nutzen kann, setzen auf den Common Crawl Crawler.

Es bleibt eine rechtliche Herauforderung. Und es ist damit zu rechnen, dass uns dieses Thema („Content Diebstahl“)  noch ziemlich lange beschäftigen wird.

Nicht zuletzt bleibt auch spannend, wie Bing (nutzt GPT) und Google mit Bard (siehe auch SGE = Search Generative Experience) in Zukunft damit umgehen werden, dass nicht jeder Content Creator „amused“ über das unentgeltliche Scraping seiner Inhalte ist.

Update 02.10.2023

Google führt einen neuen User-Agent mit der Bezeichnung Google-Extended ein.

Damit lässt sich nun also kontrollieren, welche Verzeichnisse Bard und Vertex AI für das KI-Training verwenden dürfen … oder eben auch nicht.

User-agent: Google-Extended
Disallow: /

Einen speziellen HTTP User Agent String gibt es nicht, es wird einfach einer der anderen Crawler verwendet. Google-Extended ist also kein eigenständiger Crawler, sondern dient ausschließlich der Steuerung innerhalb der robots.txt.

Das Crawling und die Indexierung von Seiteninhalten wird durch diesen User-Agent nicht beeinflusst oder gar unterbunden. Das ist wichtig! Die Seite ist weiterhin in der Google Suche auffindbar, die Inhalte werden aber nicht zum Training der diversen Google AI Produkte verwendet.

Wenn man daraus schließt, dass die Webseiten auch von Search Generative Experience ausgeschlossen werden, dann ist dies leider ein Irrtum. SGE ist ein Bestandteil der Google-Suche und kann nur durch Deaktivieren der Google-Bots ausgeschlossen werden, was aber die Webseiten gleich komplett aus dem Index entfernt.