Das unklare Rechtsgebiet der KI-Entwicklung, in dem sich YouTube-Videos in Treibstoff für maschinelles Lernen verwandeln.
In einem aktuellen Artikel von Die New York Times, wurden verschiedene Strategien hervorgehoben, die Unternehmen angewendet haben, um sich im unklaren Gebiet des KI-Urheberrechts zurechtzufinden. Der Bericht begann mit einem Schwerpunkt auf OpenAI, das auf der Suche nach geeigneten Trainingsdaten das Whisper-Audiotranskriptionsmodell entwickelt haben soll. Diese Initiative ermöglichte die Transkription von mehr als einer Million Stunden YouTube-Inhalten, um die Entwicklung von GPT-4, ihrem neuesten und fortschrittlichsten großen Sprachmodell, voranzutreiben.
Und… YouTube fordert Antworten zu Soras Trainingsdaten.
Hat OpenAI wirklich YouTube-Videos verwendet, um Sora zu trainieren?
Entsprechend Die New York TimesOpenAI war sich der potenziellen rechtlichen Herausforderungen bewusst, rechtfertigte die Maßnahme jedoch als faire Nutzung. Greg Brockman, der Präsident von OpenAI, spielte eine Schlüsselrolle bei der Beschaffung von Videoinhalten für diesen Zweck, wie von der Mal.
In dem Artikel wurde außerdem erwähnt, dass die Organisation bis 2021 ihre Ressourcen an nützlichen Daten aufgebraucht hatte, was zu Überlegungen führte, YouTube-Clips, Podcasts und Hörbücher zu transkribieren, nachdem andere Möglichkeiten ausgeschöpft wurden. Zu diesem Zeitpunkt waren in das Training seiner Modelle bereits Daten aus Quellen wie dem Computercode von Github, Datenbanken mit Schachstrategien und Lehrmaterialien von Quizlet integriert.
Matt Bryant, ein Sprecher von Google, teilte mit Der Rand per E-Mail, dass „unbestätigte Berichte“ über die Aktionen von OpenAI vorliegen. Er erinnerte daran, dass die robots.txt-Dateien und Nutzungsbedingungen von Google das unbefugte Sammeln oder Herunterladen von YouTube-Materialien eindeutig verbieten und bekräftigte damit die Nutzungsrichtlinien des Unternehmens. In ähnlicher Weise äußerte Neal Mohan, der CEO von YouTube, diese Woche Bedenken hinsichtlich der angeblichen Nutzung von YouTube-Daten für das Training von Sora, einem Videogenerierungsmodell von OpenAI. Bryant betonte, dass Google technische und rechtliche Maßnahmen durchsetzt, um solche nicht autorisierten Aktivitäten einzudämmen, sofern es eine solide rechtliche oder technische Grundlage für ein Eingreifen gibt.

Nach Angaben der zitierten Quellen MalGoogle extrahierte auch Transkripte aus YouTube-Videos. Bryant erwähnte, dass das Unternehmen einige YouTube-Inhalte zur Schulung seiner Models genutzt hat und sich dabei an Vereinbarungen mit YouTube-Erstellern gehalten hat.
Der Mal berichtete, dass die Rechtsabteilung von Google seinem Datenschutzteam geraten habe, den Wortlaut seiner Richtlinie zu ändern, um den Umfang der Nutzung von Verbraucherdaten, einschließlich Diensten wie Google Docs, auszuweiten. Es wird darauf hingewiesen, dass die aktualisierte Richtlinie strategisch am 1. Juli veröffentlicht wurde, um die durch das Feiertagswochenende zum Unabhängigkeitstag verursachte Ablenkung auszunutzen.
Ebenso stand Meta vor Herausforderungen beim Zugriff auf angemessene Trainingsdaten Mal hat Aufzeichnungen erhalten, in denen sein KI-Team die unbefugte Nutzung von urheberrechtlich geschütztem Material besprochen hat, um mit OpenAI Schritt zu halten.
Google, OpenAI und andere im Bereich der KI-Entwicklung haben mit der abnehmenden Verfügbarkeit hochwertiger Trainingsdaten für ihre Modelle zu kämpfen, die sich mit zunehmendem Datenverbrauch verbessern.
Die Reise von OpenAI war von Durchbrüchen, aber auch von rechtlichen und ethischen Grauzonen geprägt. Die YouTube-Transkriptionskontroverse unterstreicht die Komplexität des Urheberrechts beim Training fortgeschrittener KI-Modelle. Als Werkzeuge mögen Sora betritt Hollywoodsteht das Unternehmen vor einer noch strengeren Prüfung. Kann Altman diese Hürden überwinden oder ist er bereits ersetzt??
Hervorgehobener Bildnachweis: Andrew Neel/Unsplash