Eine vorgeschlagene Sammelklage, die von der Autorin Elizabeth Lyon aus Oregon eingereicht wurde, wirft Adobe vor, sein SlimLM-KI-Modell anhand des SlimPajama-627B-Datensatzes, der aus der RedPajama-Sammlung mit Books3 stammt, auf Raubkopien von Büchern, einschließlich ihrer Reiseführer, zu trainieren. Adobe hat in den letzten Jahren umfangreiche Entwicklungen im Bereich der künstlichen Intelligenz betrieben. Das Unternehmen führte ab 2023 mehrere KI-Dienste ein, wobei Firefly als seine KI-gestützte Mediengenerierungssuite dient, die für die Erstellung von Bildern, Videos und anderen Medieninhalten aus Textaufforderungen und Eingaben konzipiert ist.
SlimLM stellt eine Reihe kleiner Sprachmodelle dar, die Adobe speziell für Dokumentunterstützungsaufgaben auf mobilen Geräten optimiert hat. Diese Modelle ermöglichen Funktionen wie das Zusammenfassen von Dokumenten, das Extrahieren wichtiger Informationen und die Bereitstellung kontextbezogener Hilfe direkt in mobilen Anwendungen. Adobe Staaten dass SlimLM mithilfe des SlimPajama-627B-Datensatzes vorab trainiert wurde. Großhirn freigegeben Dieser Datensatz wurde im Juni 2023 als deduplizierte Open-Source-Ressource mit mehreren Korpora veröffentlicht, die für das Training großer Sprachmodelle vorgesehen ist. Der Datensatz aggregiert verschiedene Textquellen, nachdem Duplikate entfernt wurden, um die Trainingseffizienz und die Modellleistung zu verbessern. Elizabeth Lyon, die sich auf Ratgeber zum Schreiben von Sachbüchern spezialisiert hat, leitete die Klage mit der Begründung ein, dass Adobe Raubkopien zahlreicher Bücher, darunter auch ihrer eigenen Werke, in den Schulungsprozess für SlimLM integriert habe. Die Klage strebt den Status einer Sammelklage an, um andere betroffene Autoren zu vertreten. In der Klage wird detailliert beschrieben, wie der SlimPajama-Datensatz aus dem RedPajama-Datensatz entstanden ist, der die Books3-Sammlung mit 191.000 Büchern umfasst. Reuters zuerst gemeldet auf die Einreichung. In der Beschwerde heißt es wörtlich: „Der SlimPajama-Datensatz wurde durch Kopieren und Manipulieren des RedPajama-Datensatzes (einschließlich des Kopierens von Books3) erstellt.“ Weiter heißt es: „Da es sich also um eine abgeleitete Kopie des RedPajama-Datensatzes handelt, enthält SlimPajama den Books3-Datensatz, einschließlich der urheberrechtlich geschützten Werke des Klägers und der Gruppenmitglieder.“ Lyon argumentiert, dass ihre urheberrechtlich geschützten Materialien ohne ihre Zustimmung oder Entschädigung in diesen Vortrainingsdaten erschienen seien. Books3 tauchte immer wieder in Rechtsstreitigkeiten im KI-Bereich auf, da Entwickler es zum Trainieren generativer KI-Systeme genutzt haben. Die Sammlung enthält digitalisierte Texte verschiedener Genres und Autoren und stellt damit ein umfassendes, aber umstrittenes Schulungskorpus dar. Auch RedPajama, zu dem Books3 gehört, wurde in mehreren Gerichtsverfahren erwähnt.





