Digital Eliteboard - Das Digitale Technik Forum

Registriere dich noch heute kostenloses um Mitglied zu werden! Sobald du angemeldet bist, kannst du auf unserer Seite aktiv teilnehmen, indem du deine eigenen Themen und Beiträge erstellst und dich über deinen eigenen Posteingang mit anderen Mitgliedern unterhalten kannst! Zudem bekommst du Zutritt zu Bereiche, welche für Gäste verwehrt bleiben

PC & Internet Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor​

08.08.2023 10:11 Uhr Martin Holland
Hand an tastatur mit dem Wort ChatGPT im Vordergrund

(Bild: CHUAN CHUAN/Shutterstock.com)

Für das Training von KI-Chatbots wie ChatGPT wird das Internet durchpflügt. Wer Inhalte davon ausschließen will, kann das nun über Code in der robots.txt tun.

Wer nicht will, dass Inhalte auf eigenen Webseiten für das Training der GPT-Sprachmodelle von OpenAI benutzt werden, kann das jetzt verhindern. Das US-Unternehmen hinter ChatGPT hat dafür zusammengefasst, wie der Web-Crawler für die KI-Technik in der robots.txt einer Website ausgesperrt werden kann. Dafür müssen in der Datei lediglich die beiden Zeilen eingefügt werden:

User-agent: GPTBot
Disallow: /

Außerdem kann demnach aber auch vorgegeben werden, dass nur bestimmte Ordner für KI-Training genutzt werden können und andere nicht. Dafür schreibt OpenAI folgenden Code vor:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Erkennen lässt sich der Crawler von OpenAI demnach an diesem String:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
)

Bei der Verbesserung von GPT helfen​

Webseiten, die von dem GPTBot besucht wurden, "können potenziell dafür genutzt werden, künftige GPT-Modelle zu verbessern",
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
. Gleichzeitig erklärt das Unternehmen, dass Seiten ausgefiltert werden, die über eine Paywall verfügen, dafür bekannt sind, personenbeziehbare Daten zu sammeln oder auf denen Texte stehen, "die gegen unsere Regeln verstoßen". Wer es dem Crawler erlaube, die Daten zu sammeln, könne dabei helfen, dass KI-Modelle akkurater und insgesamt besser werden, heißt es noch.

Erst vor wenigen Tagen hat sich OpenAI gemeinsam mit anderen KI-Unternehmen gegenüber der US-Regierung selbst verpflichtet,
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
und die Technik intensiv zu testen, bevor sie auf den Markt kommt. Von Hinweisen darauf, mit welchen Inhalten aus dem Internet sie trainiert wurden, war dabei genauso wenig die Rede wie von einem Ende der Praxis, das Internet dafür einfach durchzupflügen. Mit den Angaben für die robots.txt bekommen Webseiten-Betreiber nun etwas Kontrolle zurück.

Das Vorgehen von OpenAI ist nicht der erste Versuch, Erstellern von Inhalten die Möglichkeit zu geben, selbst darüber zu entscheiden, ob sie zum Training von Künstlicher Intelligenz beitragen wollen. Bereits im November hat das Online-Kunstportal DeviantArt Nutzern und Nutzerinnen erklärt, wie sie ihre Werke um einen diesbezüglichen Hinweis ergänzen können.
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
. Ob die Entwickler von KI-Technik das beachten würden, konnte DeviantArt aber nicht beeinflussen.

Für den parallel dazu eingeführten Bildgenerator DreamUp hatte die Plattform das gleichzeitig deutlich erschwert und erst nach heftigen Protesten abgeändert. Danach wurde daraus ein Opt-in, nur wer will, dass eigene Werke als KI-Material genutzt werden, musste danach aktiv werden. Das gilt nicht für den GPTBot von OpenAI, wer ihm den Weg auf eine Website versperren will, muss jetzt die robots.txt anpassen.
(mho [4])


URL dieses Artikels:
Du musst dich Anmelden oder Registrieren um diesen link zusehen!
 
Zurück
Oben