Der CEO von Google DeepMind, DeCOI Hassabis Möglich Podcast.
Hassabis erklärte, dass die Strategie mit ihrer Vision für einen „universellen digitalen Assistenten“ übereinstimmt, der in der Lage ist, Benutzer in realen Szenarien zu unterstützen. „Wir haben immer Gemini, unser Foundation-Modell, von Anfang an multimodal gebaut“, erklärte er im Podcast, der von Reid Hoffman gemeinsam veranstaltete.
Dieser Schritt spiegelt eine breitere Verschiebung der Branche in Richtung vielseitiger „Omni“ -Modelle wider. Die neuesten Gemini -Versionen von Google befassen sich bereits mit Audio-, Image- und Textgenerierung, während Konkurrenten wie OpenAI aktivieren Bilderstellung in Chatgpt und Amazon beabsichtigt Start eines Modells „Any-to-thes“.
Die Entwicklung dieser umfassenden Modelle erfordert enorme Datensätze, die Video, Bilder, Audio und Text umfassen. Hassabis deutete darauf hin, dass die Videodaten, die VEO tanken, weitgehend von YouTube, einer Google-Plattform, stammt.
Er erläuterte, dass Veo durch die Verarbeitung umfassender YouTube-Inhalte etwas über die reale Physik erfährt. “[Veo 2] Sie können herausfinden, wie Sie wissen, die Physik der Welt “, kommentierte Hassabis, dass das Modell„ viele YouTube -Videos “ansah.
Google zuvor bestätigte zu Techcrunch Die Modelle „können“ auf „einigen“ YouTube -Inhalten geschult werden, was mit Vereinbarungen mit den Ersteller übereinstimmt. Berichte deuten darauf hin, dass Google seine Servicebedingungen im vergangenen Jahr aktualisiert und möglicherweise den Zugriff auf Daten für KI -Schulungszwecke erweitert.