Anwälte der New York Times und der Daily News behaupten, dass OpenAI versehentlich wichtige Daten im Zusammenhang mit ihrer Urheberrechtsklage gegen das Unternehmen wegen unbefugter Nutzung ihrer Inhalte gelöscht habe, so a TechCrunch Bericht. Der Vorfall ereignete sich, nachdem OpenAI zugestimmt hatte, Zugang zu seinen Trainingsdatensätzen zu gewähren, um den Klägern bei der Überprüfung der Nutzung ihrer urheberrechtlich geschützten Materialien zu helfen.
In der Klage wird behauptet, dass OpenAI Artikel aus der New York Times und den Daily News gelöscht hat, ohne die Erlaubnis zum Trainieren seiner Modelle eingeholt zu haben. Als Reaktion auf die Klage stellte OpenAI den Anwälten der Verlage zwei virtuelle Maschinen zur Verfügung, um ihre Trainingsdaten nach urheberrechtlich geschützten Inhalten zu durchsuchen. Seit dem 1. November haben die Rechtsteams dieser Suche mehr als 150 Stunden gewidmet. Allerdings löschten OpenAI-Ingenieure am 14. November versehentlich alle auf einer der virtuellen Maschinen gespeicherten Suchdaten, wie aus einer beim US-Bezirksgericht für den südlichen Bezirk von New York eingereichten Klageschrift hervorgeht.
Die Versuche von OpenAI, die gelöschten Daten wiederherzustellen, waren größtenteils erfolgreich, aber der Verlust der Ordnerstruktur und der Dateinamen machte die wiederhergestellten Daten für die Nachverfolgung, wo die Artikel der Kläger in die Schulung der KI einbezogen wurden, unbrauchbar. In dem vom Anwalt der Kläger eingereichten Schreiben wurde betont, dass sie ihre Arbeit neu aufbauen mussten, was umfangreiche Ressourcen und Zeit in Anspruch nahm.
Trotz der Löschung der Daten stellte der Anwalt klar, dass es keine Hinweise darauf gibt, dass der Vorfall vorsätzlich war. Sie äußerten Bedenken, dass OpenAI ideal für die Durchsuchung seiner eigenen Datensätze geeignet sei, was auf die Verpflichtung hindeutet, bei der Untersuchung potenzieller Urheberrechtsverletzungen mitzuhelfen.
OpenAI hat macOS gerade mit der ChatGPT-App-Unterstützung intelligenter gemacht
OpenAI behauptet, dass die Verwendung öffentlich verfügbarer Daten zum Training seiner Modelle unter die „faire Nutzung“ fällt. Das Unternehmen behauptet, dass es diese Inhalte nicht lizenzieren oder entschädigen muss, auch wenn es von seinen KI-Produkten profitiert. Dennoch hat OpenAI Lizenzvereinbarungen mit mehreren Verlagen abgeschlossen, darunter prominenten Namen wie Associated Press und Financial Times. Während die genauen Bedingungen dieser Deals nicht bekannt gegeben werden, wird berichtet, dass Dotdash, einer der Partner, jährlich mindestens 16 Millionen US-Dollar erhält.
Die möglichen Auswirkungen dieses und ähnlicher Fälle könnten die Landschaft der Inhaltsnutzung und Lizenzierung für KI-Schulungen verändern. Der Ansatz von OpenAI, Nachrichtenartikel ohne ausdrückliche Genehmigung für das Modelltraining zu nutzen, wirft Fragen zur Anwendbarkeit des Urheberrechts im Zeitalter der künstlichen Intelligenz auf. Die Ermittlungen zu den Umständen der Datenlöschung dauern an und verdeutlichen die Komplexität der Situation.
OpenAI hat noch keine Stellungnahme zu dem Vorfall oder seinen Auswirkungen auf die Beziehung zu den Klägern abgegeben.
Hervorgehobener Bildnachweis: Jonathan Kemper/Unsplash