OpenAI, das einflussreiche Forschungslabor für künstliche Intelligenz hinter bahnbrechenden Tools wie ChatGPT und Sora, ist nach einem kürzlichen Interview mit seiner Chief Technology Officer, Mira Murati, in Schwierigkeiten geraten.
Das Interviewdurchgeführt von der Wall Street Journal-Reporterin Joanna Stern, konzentrierte sich auf das neueste Bild- bzw. Videogenerierungssystem von OpenAI. Sora.
Die Bedenken konzentrieren sich auf den möglichen Missbrauch urheberrechtlich geschützter Werke zum Trainieren von KI-Modellen und dergleichen Mangel an Transparenz von OpenAI bezüglich seiner Datenpraktiken.
Soras Trainingsdaten sind fraglich
Im Mittelpunkt der Kontroverse steht die Frage der Trainingsdaten. die riesigen Datensätze, die zum Trainieren von KI-Modellen verwendet werden.
Auf die Frage nach den für Sora verwendeten Datenquellen gab Murati die Standardantwort: Das Modell sei trainiert worden auf „öffentlich zugängliche und lizenzierte Daten„.
Weitere Untersuchungen ergaben jedoch, dass Murati hinsichtlich der spezifischen Details dieses Datensatzes zögerte und unsicher war.
Diese Antwort hat rote Fahnen gehisst unter Künstlern, Fotografen und Experten für geistiges Eigentum. KI-Bilderzeugungssysteme sind in hohem Maße auf die Aufnahme großer Mengen an Bildern angewiesen, von denen viele möglicherweise urheberrechtlich geschützt sind. Der Mangel an Klarheit in Bezug auf die Trainingsdaten von Sora wirft die Frage auf, ob OpenAI die Rechte der Inhaltsersteller angemessen geschützt hat.

Die Verwendung von Shutterstock wurde später zugegeben
Dass Murati sich zunächst weigerte, sich mit der Frage zu befassen, ob Shutterstock-Bilder ein Bestandteil von Soras Trainingsdatensatz waren, fügte dem Feuer noch Öl hinzu. Erst nach dem Interview bestätigte Murati in einer vom Wall Street Journal hinzugefügten Fußnote die Verwendung der Bildbibliothek von Shutterstock.
Diese Bestätigung widerspricht der öffentlichkeitswirksamen Haltung von OpenAI: „öffentlich zugängliche und lizenzierte Daten“ und schlägt einen Versuch vor, potenziell problematische Beschaffungspraktiken zu verbergen.
Shutterstock und OpenAI haben eine Partnerschaft geschlossen, die OpenAI die Rechte zur Nutzung der Bildbibliothek von Shutterstock für das Training von Bilderzeugungsmodellen wie DALL-E 2 und möglicherweise Sora gewährt.
Im Gegenzug erhalten Shutterstock-Mitwirkende (die Fotografen und Künstler, deren Bilder auf der Plattform verfügbar sind) eine Vergütung, wenn ihre Arbeit bei der Entwicklung dieser KI-Modelle verwendet wird.
Ein PR-Albtraum nimmt seinen Lauf
Man kann mit Sicherheit sagen, dass die meisten PR-Leute dieses Interview nicht als PR-Meisterwerk betrachten würden.
Muratis Unklarheit kommt zu einem sensiblen Zeitpunkt für OpenAI. steht bereits vor großen Urheberrechtsklagendarunter eine bedeutende, von der New York Times eingereichte.
Die Öffentlichkeit untersucht Praktiken wie die angebliche heimliche Verwendung von YouTube-Videos durch OpenAI für das Modelltraining zuvor von The Information berichtet. Angesichts der Tatsache, dass Interessengruppen von Künstlern bis hin zu Politikern Rechenschaftspflicht fordern, schürt Muratis Vermeidung das Feuer nur.
Der undurchsichtige Ansatz von OpenAI geht spektakulär nach hinten los. Das Sora-Interview in ein PR-Desaster verwandeln.
Mira Murati, CTO von OpenAI, sagt, dass Sora anhand öffentlich verfügbarer und lizenzierter Daten geschult wurde pic.twitter.com/rf7pZ0ZX00
— Zarathustra (@tsarnick) 13. März 2024
Transparenz ist nicht umsonst das meistdiskutierte Thema
Dieser Vorfall unterstreicht eine entscheidende Wahrheit: Die Enthüllung der Wahrheit ist in der Welt der KI von größter Bedeutung. Die stolpernden Reaktionen von OpenAI haben das Vertrauen der Öffentlichkeit erheblich untergraben und Fragen zu seinen ethischen Praktiken verstärkt. Die Sora-Kontroverse unterstreicht den wachsenden Chor fordert eine größere Verantwortung innerhalb der KI-Branche.
Muratis Widerwillen, die Einzelheiten von Soras Trainingsdaten preiszugeben, schürt Misstrauen und schafft einen gefährlichen Präzedenzfall.
Ohne die Klarheit, die Künstler, Schöpfer und die Öffentlichkeit fordern, werden ethische Debatten und die Möglichkeit rechtlicher Schritte nur noch intensiver.
In diesem Land gibt es keine Engel
Während sich ein Großteil der aktuellen Untersuchungen eindeutig auf OpenAI bezieht, ist es wichtig, sich daran zu erinnern Sie sind nicht der einzige Spieler im Spiel.
Facebook-KI-Forschung LLaMA-Modell Und Googles Zwillinge wurden auch mit Vorwürfen problematischer Trainingsdatenquellen konfrontiert.

Dies ist nicht überraschend, da Business Insider-Berichte das hat Meta bereits zugegeben Verwendung von Instagram- und Facebook-Beiträgen um seine KI-Modelle zu trainieren. Zusätzlich, Googles Kontrolle über weite Teile des Internets gewährt ihnen beispiellosen Zugang zu potenziellen Trainingsdaten, was ähnliche ethische Bedenken hinsichtlich Einwilligung und Urheberrecht aufwirft.
Die Situation mit Sora von OpenAI ist nur ein Teil eines größeren Puzzles. Der gesamte Bereich der KI-Entwicklung steht im Hinblick auf seine Datenpraktiken und die möglichen ethischen Implikationen auf dem Prüfstand.
Hervorgehobener Bildnachweis: Freepik.