Demnach wird die Harvard University in Zusammenarbeit mit Google einen Datensatz von etwa einer Million gemeinfreier Bücher zur Verwendung beim Training von KI-Modellen veröffentlichen VERDRAHTET. Diese als Institutional Data Initiative bekannte Initiative hat sich die Finanzierung sowohl von Microsoft als auch von OpenAI gesichert. Der Datensatz umfasst Werke, die nicht mehr unter Urheberrechtsschutz stehen und aus den umfangreichen Buchscan-Bemühungen von Google stammen.
Harvard und Google stellen eine Million Bücher für die KI-Ausbildung bereit
Die Ankündigung erfolgte am 12. Dezember 2024 mit dem Datensatz, der ein breites Spektrum an Genres, Sprachen und Autoren umfasst, darunter namhafte Persönlichkeiten wie Dickens, Dante und Shakespeare. Der geschäftsführende Direktor der Harvard-Initiative, Greg Leppert, betonte, dass der Datensatz darauf abzielt, „gleiche Wettbewerbsbedingungen zu schaffen“ und Forschungslabors und KI-Startups den Zugang zu ermöglichen, um ihre Bemühungen zur Entwicklung von Sprachmodellen zu verbessern. Der Datensatz richtet sich an alle, die große Sprachmodelle (LLMs) trainieren möchten, das genaue Veröffentlichungsdatum und die Methode müssen jedoch noch bekannt gegeben werden.
Da KI-Technologien zunehmend auf große Mengen an Textdaten angewiesen sind, dient dieser Datensatz als entscheidende Ressource. Grundlegende Modelle wie ChatGPT profitieren erheblich von hochwertigen Trainingsdaten. Der Bedarf an Daten hat jedoch Unternehmen wie OpenAI vor Herausforderungen gestellt, die wegen der unbefugten Nutzung urheberrechtlich geschützter Materialien einer rechtlichen Prüfung ausgesetzt sind. Klagen großer Verlage, darunter das Wall Street Journal und die New York Times, verdeutlichen die anhaltenden Spannungen hinsichtlich der Nutzung von Inhalten und Urheberrechtsverletzungen in der KI-Schulung.
Obwohl der bevorstehende Datensatz von Vorteil sein wird, ist noch unklar, ob eine Million Bücher ausreichen werden, um den Anforderungen des KI-Modelltrainings gerecht zu werden, insbesondere da zeitgenössische Referenzen und aktualisierte Umgangssprache in diesen historischen Texten nicht abgedeckt sind. KI-Unternehmen werden weiterhin nach zusätzlichen Datenquellen suchen, insbesondere nach exklusiven oder aktuellen Informationen, um ihre Modelle von der Konkurrenz abzuheben.
- Die Institutional Data Initiative von Harvard zielt darauf ab, zugängliche Daten für die KI-Entwicklung bereitzustellen.
- Die Finanzierung durch Microsoft und OpenAI unterstützt das Projekt.
- Der Datensatz umfasst literarische Klassiker und weniger bekannte Texte.
- KI-Modelle erfordern umfangreiche Daten; Aktuelle Kontroversen betreffen Datennutzungsrechte.
Entwickler im KI-Bereich beschränken sich nicht nur auf historische Texte. Mehrere Plattformen, darunter Reddit und X, haben damit begonnen, den Zugriff auf ihre Daten einzuschränken, da sie deren zunehmenden Wert erkannt haben. Reddit hat Lizenzverträge mit Unternehmen wie Google abgeschlossen, während X exklusive Content-Vereinbarungen zur Echtzeit-Datennutzung unterhält. Diese Verschiebung in der Zugänglichkeit von Inhalten spiegelt die Wettbewerbslandschaft wider, in der KI-Unternehmen Schwierigkeiten haben, angemessene und relevante Trainingsdaten zu erhalten, ohne rechtliche Konsequenzen zu erleiden.
Die Durchführung der Institutional Data Initiative ist ein Schritt zur Linderung dieses Drucks, indem ein rechtlich sicherer Pool historischer Texte bereitgestellt wird, der eine verantwortungsvolle Modellschulung ermöglicht. Allerdings werden weiterhin umfassende Strategien erforderlich sein, um sicherzustellen, dass KI-Modelle wettbewerbsfähig und in der Lage sind, zeitgenössische Sprache und Referenzen zu verstehen.
Wie effektiv diese Ressource den anhaltenden Bedarf an umfassenden und vielfältigen Daten erfüllen wird, bleibt eine Frage, da Untersuchungen zur Datennutzung fortgesetzt werden.
Hervorgehobener Bildnachweis: Tonbänke/Unsplash