PC & Internet Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

opapa · 8. August 2023

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

08.08.2023 10:11 Uhr Martin Holland

Hand an tastatur mit dem Wort ChatGPT im Vordergrund

(Bild: CHUAN CHUAN/Shutterstock.com)

Für das Training von KI-Chatbots wie ChatGPT wird das Internet durchpflügt. Wer Inhalte davon ausschließen will, kann das nun über Code in der robots.txt tun.

Wer nicht will, dass Inhalte auf eigenen Webseiten für das Training der GPT-Sprachmodelle von OpenAI benutzt werden, kann das jetzt verhindern. Das US-Unternehmen hinter ChatGPT hat dafür zusammengefasst, wie der Web-Crawler für die KI-Technik in der robots.txt einer Website ausgesperrt werden kann. Dafür müssen in der Datei lediglich die beiden Zeilen eingefügt werden:

User-agent: GPTBot
Disallow: /

Außerdem kann demnach aber auch vorgegeben werden, dass nur bestimmte Ordner für KI-Training genutzt werden können und andere nicht. Dafür schreibt OpenAI folgenden Code vor:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Erkennen lässt sich der Crawler von OpenAI demnach an diesem String:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +

Du musst dich Anmelden oder Registrieren um diesen link zusehen!

)

Bei der Verbesserung von GPT helfen

Webseiten, die von dem GPTBot besucht wurden, "können potenziell dafür genutzt werden, künftige GPT-Modelle zu verbessern",

Du musst dich Anmelden oder Registrieren um diesen link zusehen!

. Gleichzeitig erklärt das Unternehmen, dass Seiten ausgefiltert werden, die über eine Paywall verfügen, dafür bekannt sind, personenbeziehbare Daten zu sammeln oder auf denen Texte stehen, "die gegen unsere Regeln verstoßen". Wer es dem Crawler erlaube, die Daten zu sammeln, könne dabei helfen, dass KI-Modelle akkurater und insgesamt besser werden, heißt es noch.

Erst vor wenigen Tagen hat sich OpenAI gemeinsam mit anderen KI-Unternehmen gegenüber der US-Regierung selbst verpflichtet,

Du musst dich Anmelden oder Registrieren um diesen link zusehen!

und die Technik intensiv zu testen, bevor sie auf den Markt kommt. Von Hinweisen darauf, mit welchen Inhalten aus dem Internet sie trainiert wurden, war dabei genauso wenig die Rede wie von einem Ende der Praxis, das Internet dafür einfach durchzupflügen. Mit den Angaben für die robots.txt bekommen Webseiten-Betreiber nun etwas Kontrolle zurück.

Das Vorgehen von OpenAI ist nicht der erste Versuch, Erstellern von Inhalten die Möglichkeit zu geben, selbst darüber zu entscheiden, ob sie zum Training von Künstlicher Intelligenz beitragen wollen. Bereits im November hat das Online-Kunstportal DeviantArt Nutzern und Nutzerinnen erklärt, wie sie ihre Werke um einen diesbezüglichen Hinweis ergänzen können.

Du musst dich Anmelden oder Registrieren um diesen link zusehen!

. Ob die Entwickler von KI-Technik das beachten würden, konnte DeviantArt aber nicht beeinflussen.

Für den parallel dazu eingeführten Bildgenerator DreamUp hatte die Plattform das gleichzeitig deutlich erschwert und erst nach heftigen Protesten abgeändert. Danach wurde daraus ein Opt-in, nur wer will, dass eigene Werke als KI-Material genutzt werden, musste danach aktiv werden. Das gilt nicht für den GPTBot von OpenAI, wer ihm den Weg auf eine Website versperren will, muss jetzt die robots.txt anpassen.
(mho [4])

URL dieses Artikels:

Du musst dich Anmelden oder Registrieren um diesen link zusehen!

Suche

Suche

PC & Internet Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Bei der Verbesserung von GPT helfen

Ähnliche Themen

Spenden Unterstützung

PC & Internet Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor​

Bei der Verbesserung von GPT helfen​

Ähnliche Themen

Spenden Unterstützung

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Bei der Verbesserung von GPT helfen