OpenAI wird vor dem Schulungsschaden seine KI -Modelle auf urheberrechtlich geschütztes Material ohne Erlaubnis ausgesetzt Papier behauptet, das Unternehmen habe Paywalled-Bücher von O’Reilly Media verwendet, um sein GPT-4O-Modell auszubilden. Das AI Offenlegungsprojekt, eine gemeinnützige Organisation von Tim O’Reilly und Ilan Strauss, veröffentlichten die Zeitung.
KI -Modelle fungieren als Vorhersagemotoren, Lernmuster aus umfangreichen Daten wie Büchern und Filmen, um aus Eingabeaufforderungen zu extrapolieren. Während einige AI-Labors AI-generierte Daten verwenden, wenn die realen Quellen abnehmen, bildet das Training über rein synthetische Daten Risiken, beispielsweise die Auswirkungen der Leistung eines Modells.
Die Methodik des Papiers, De-copbestimmt, ob ein Modell zwischen menschlich gutautierten Texten unterscheidet und Paraphrasen mit AI-generierten. Dies deutet darauf hin, ob das Modell über Vorkenntnisse aus seinen Trainingsdaten verfügt. Die Forscher untersuchten GPT-4O, GPT-3,5 Turbo und andere OpenAI-Modelle unter Verwendung von 13.962 Auszügen aus 34 O’Reilly-Büchern, um die Wahrscheinlichkeit der Aufnahme in Trainingsdatensätze abzuschätzen.
Die Ergebnisse zeigten, dass GPT-4O deutlich mehr Paywalled O’Reilly-Buchinhalte als ältere Modelle wie GPT-3,5 Turbo erkannte. Nach dem Papier, Gpt-4o Wahrscheinlich erkennt viele nicht öffentliche O’Reilly-Bücher an, die vor dem Datum des Schulungsabschlusses veröffentlicht wurden. Laut der Zeitung hat O’Reilly kein Lizenzvertrag mit OpenAI.
Die Co-Autoren erkennen an, dass die Methode nicht narrensicher ist und OpenAI möglicherweise Auszüge aus den ChatGPT-Eingaben der Benutzer gesammelt hat. Eine weitere Einschränkung ist, dass neuere OpenAI-Modelle, einschließlich GPT-4,5, nicht bewertet wurden.
OpenAI, der sich für losere Urheberrechtsbeschränkungen einsetzt, hat qualitativ hochwertige Schulungsdaten gesucht und Journalisten eingestellt, um Modellausgaben für Feinabstimmung zu erhalten. Das Unternehmen hat auch Lizenzverträge mit Nachrichtenverlagern und bietet Opt-out-Mechanismen für Urheberrechtseigentümer an. Openai hat die Zeitung nicht kommentiert.