Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Google und Harvard lassen 1 Million Bücher fallen, um KI-Modelle zu trainieren

byEditorial Team
Dezember 13, 2024
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Demnach wird die Harvard University in Zusammenarbeit mit Google einen Datensatz von etwa einer Million gemeinfreier Bücher zur Verwendung beim Training von KI-Modellen veröffentlichen VERDRAHTET. Diese als Institutional Data Initiative bekannte Initiative hat sich die Finanzierung sowohl von Microsoft als auch von OpenAI gesichert. Der Datensatz umfasst Werke, die nicht mehr unter Urheberrechtsschutz stehen und aus den umfangreichen Buchscan-Bemühungen von Google stammen.

Harvard und Google stellen eine Million Bücher für die KI-Ausbildung bereit

Die Ankündigung erfolgte am 12. Dezember 2024 mit dem Datensatz, der ein breites Spektrum an Genres, Sprachen und Autoren umfasst, darunter namhafte Persönlichkeiten wie Dickens, Dante und Shakespeare. Der geschäftsführende Direktor der Harvard-Initiative, Greg Leppert, betonte, dass der Datensatz darauf abzielt, „gleiche Wettbewerbsbedingungen zu schaffen“ und Forschungslabors und KI-Startups den Zugang zu ermöglichen, um ihre Bemühungen zur Entwicklung von Sprachmodellen zu verbessern. Der Datensatz richtet sich an alle, die große Sprachmodelle (LLMs) trainieren möchten, das genaue Veröffentlichungsdatum und die Methode müssen jedoch noch bekannt gegeben werden.

Da KI-Technologien zunehmend auf große Mengen an Textdaten angewiesen sind, dient dieser Datensatz als entscheidende Ressource. Grundlegende Modelle wie ChatGPT profitieren erheblich von hochwertigen Trainingsdaten. Der Bedarf an Daten hat jedoch Unternehmen wie OpenAI vor Herausforderungen gestellt, die wegen der unbefugten Nutzung urheberrechtlich geschützter Materialien einer rechtlichen Prüfung ausgesetzt sind. Klagen großer Verlage, darunter das Wall Street Journal und die New York Times, verdeutlichen die anhaltenden Spannungen hinsichtlich der Nutzung von Inhalten und Urheberrechtsverletzungen in der KI-Schulung.

Obwohl der bevorstehende Datensatz von Vorteil sein wird, ist noch unklar, ob eine Million Bücher ausreichen werden, um den Anforderungen des KI-Modelltrainings gerecht zu werden, insbesondere da zeitgenössische Referenzen und aktualisierte Umgangssprache in diesen historischen Texten nicht abgedeckt sind. KI-Unternehmen werden weiterhin nach zusätzlichen Datenquellen suchen, insbesondere nach exklusiven oder aktuellen Informationen, um ihre Modelle von der Konkurrenz abzuheben.

  • Die Institutional Data Initiative von Harvard zielt darauf ab, zugängliche Daten für die KI-Entwicklung bereitzustellen.
  • Die Finanzierung durch Microsoft und OpenAI unterstützt das Projekt.
  • Der Datensatz umfasst literarische Klassiker und weniger bekannte Texte.
  • KI-Modelle erfordern umfangreiche Daten; Aktuelle Kontroversen betreffen Datennutzungsrechte.

Entwickler im KI-Bereich beschränken sich nicht nur auf historische Texte. Mehrere Plattformen, darunter Reddit und X, haben damit begonnen, den Zugriff auf ihre Daten einzuschränken, da sie deren zunehmenden Wert erkannt haben. Reddit hat Lizenzverträge mit Unternehmen wie Google abgeschlossen, während X exklusive Content-Vereinbarungen zur Echtzeit-Datennutzung unterhält. Diese Verschiebung in der Zugänglichkeit von Inhalten spiegelt die Wettbewerbslandschaft wider, in der KI-Unternehmen Schwierigkeiten haben, angemessene und relevante Trainingsdaten zu erhalten, ohne rechtliche Konsequenzen zu erleiden.

Die Durchführung der Institutional Data Initiative ist ein Schritt zur Linderung dieses Drucks, indem ein rechtlich sicherer Pool historischer Texte bereitgestellt wird, der eine verantwortungsvolle Modellschulung ermöglicht. Allerdings werden weiterhin umfassende Strategien erforderlich sein, um sicherzustellen, dass KI-Modelle wettbewerbsfähig und in der Lage sind, zeitgenössische Sprache und Referenzen zu verstehen.

Wie effektiv diese Ressource den anhaltenden Bedarf an umfassenden und vielfältigen Daten erfüllen wird, bleibt eine Frage, da Untersuchungen zur Datennutzung fortgesetzt werden.


Hervorgehobener Bildnachweis: Tonbänke/Unsplash

Tags: HervorgehobenKI

Related Posts

Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer

Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer

Januar 23, 2026
JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

Januar 23, 2026
Google führt Opt-in ein "Persönliche Intelligenz" für AI Pro- und Ultra-Benutzer

Google führt Opt-in ein "Persönliche Intelligenz" für AI Pro- und Ultra-Benutzer

Januar 23, 2026
Spotify führt KI-gestützte Prompted Playlists ein

Spotify führt KI-gestützte Prompted Playlists ein

Januar 22, 2026
Snap führt im Family Center-Update eine detaillierte Bildschirmzeitverfolgung ein

Snap führt im Family Center-Update eine detaillierte Bildschirmzeitverfolgung ein

Januar 22, 2026
Google Fotos gestaltet das Teilen mit einem immersiven Vollbild-Karussell neu

Google Fotos gestaltet das Teilen mit einem immersiven Vollbild-Karussell neu

Januar 22, 2026

Recent Posts

  • Barret Zoph wird den aggressiven kommerziellen Pivot von OpenAI leiten
  • Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer
  • LiveKit wird als Motor hinter dem Sprachmodus von ChatGPT mit einer Bewertung von 1 Milliarde US-Dollar bewertet
  • Vimeo beginnt nach der Übernahme von Bending Spoons mit Personalentlassungen
  • AWS und Prime Video schlagen zu, während Amazon eine neue Entlassungswelle vorbereitet

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.