Google und Harvard lassen 1 Million Bücher fallen, um KI-Modelle zu trainieren

Demnach wird die Harvard University in Zusammenarbeit mit Google einen Datensatz von etwa einer Million gemeinfreier Bücher zur Verwendung beim Training von KI-Modellen veröffentlichen VERDRAHTET. Diese als Institutional Data Initiative bekannte Initiative hat sich die Finanzierung sowohl von Microsoft als auch von OpenAI gesichert. Der Datensatz umfasst Werke, die nicht mehr unter Urheberrechtsschutz stehen und aus den umfangreichen Buchscan-Bemühungen von Google stammen.

Harvard und Google stellen eine Million Bücher für die KI-Ausbildung bereit

Die Ankündigung erfolgte am 12. Dezember 2024 mit dem Datensatz, der ein breites Spektrum an Genres, Sprachen und Autoren umfasst, darunter namhafte Persönlichkeiten wie Dickens, Dante und Shakespeare. Der geschäftsführende Direktor der Harvard-Initiative, Greg Leppert, betonte, dass der Datensatz darauf abzielt, „gleiche Wettbewerbsbedingungen zu schaffen“ und Forschungslabors und KI-Startups den Zugang zu ermöglichen, um ihre Bemühungen zur Entwicklung von Sprachmodellen zu verbessern. Der Datensatz richtet sich an alle, die große Sprachmodelle (LLMs) trainieren möchten, das genaue Veröffentlichungsdatum und die Methode müssen jedoch noch bekannt gegeben werden.

Da KI-Technologien zunehmend auf große Mengen an Textdaten angewiesen sind, dient dieser Datensatz als entscheidende Ressource. Grundlegende Modelle wie ChatGPT profitieren erheblich von hochwertigen Trainingsdaten. Der Bedarf an Daten hat jedoch Unternehmen wie OpenAI vor Herausforderungen gestellt, die wegen der unbefugten Nutzung urheberrechtlich geschützter Materialien einer rechtlichen Prüfung ausgesetzt sind. Klagen großer Verlage, darunter das Wall Street Journal und die New York Times, verdeutlichen die anhaltenden Spannungen hinsichtlich der Nutzung von Inhalten und Urheberrechtsverletzungen in der KI-Schulung.

Obwohl der bevorstehende Datensatz von Vorteil sein wird, ist noch unklar, ob eine Million Bücher ausreichen werden, um den Anforderungen des KI-Modelltrainings gerecht zu werden, insbesondere da zeitgenössische Referenzen und aktualisierte Umgangssprache in diesen historischen Texten nicht abgedeckt sind. KI-Unternehmen werden weiterhin nach zusätzlichen Datenquellen suchen, insbesondere nach exklusiven oder aktuellen Informationen, um ihre Modelle von der Konkurrenz abzuheben.

Die Institutional Data Initiative von Harvard zielt darauf ab, zugängliche Daten für die KI-Entwicklung bereitzustellen.
Die Finanzierung durch Microsoft und OpenAI unterstützt das Projekt.
Der Datensatz umfasst literarische Klassiker und weniger bekannte Texte.
KI-Modelle erfordern umfangreiche Daten; Aktuelle Kontroversen betreffen Datennutzungsrechte.

Entwickler im KI-Bereich beschränken sich nicht nur auf historische Texte. Mehrere Plattformen, darunter Reddit und X, haben damit begonnen, den Zugriff auf ihre Daten einzuschränken, da sie deren zunehmenden Wert erkannt haben. Reddit hat Lizenzverträge mit Unternehmen wie Google abgeschlossen, während X exklusive Content-Vereinbarungen zur Echtzeit-Datennutzung unterhält. Diese Verschiebung in der Zugänglichkeit von Inhalten spiegelt die Wettbewerbslandschaft wider, in der KI-Unternehmen Schwierigkeiten haben, angemessene und relevante Trainingsdaten zu erhalten, ohne rechtliche Konsequenzen zu erleiden.

Die Durchführung der Institutional Data Initiative ist ein Schritt zur Linderung dieses Drucks, indem ein rechtlich sicherer Pool historischer Texte bereitgestellt wird, der eine verantwortungsvolle Modellschulung ermöglicht. Allerdings werden weiterhin umfassende Strategien erforderlich sein, um sicherzustellen, dass KI-Modelle wettbewerbsfähig und in der Lage sind, zeitgenössische Sprache und Referenzen zu verstehen.

Wie effektiv diese Ressource den anhaltenden Bedarf an umfassenden und vielfältigen Daten erfüllen wird, bleibt eine Frage, da Untersuchungen zur Datennutzung fortgesetzt werden.

Hervorgehobener Bildnachweis: Tonbänke/Unsplash

Tags: Hervorgehoben KI

Google und Harvard lassen 1 Million Bücher fallen, um KI-Modelle zu trainieren

Related Posts

Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

Google führt Opt-in ein "Persönliche Intelligenz" für AI Pro- und Ultra-Benutzer

Spotify führt KI-gestützte Prompted Playlists ein

Snap führt im Family Center-Update eine detaillierte Bildschirmzeitverfolgung ein

Google Fotos gestaltet das Teilen mit einem immersiven Vollbild-Karussell neu

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Google und Harvard lassen 1 Million Bücher fallen, um KI-Modelle zu trainieren

Harvard und Google stellen eine Million Bücher für die KI-Ausbildung bereit

Related Posts

Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

Google führt Opt-in ein "Persönliche Intelligenz" für AI Pro- und Ultra-Benutzer

Spotify führt KI-gestützte Prompted Playlists ein

Snap führt im Family Center-Update eine detaillierte Bildschirmzeitverfolgung ein

Google Fotos gestaltet das Teilen mit einem immersiven Vollbild-Karussell neu

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us