Machen Sie sich bereit, in eine Welt der puren Fantasie einzutauchen, denn Google Genie ist da, um Ihre Träume in die virtuelle Realität zu verwandeln!
Letzte Woche hat OpenAI uns alle mit seinem fortschrittlichen Tool zur Videogenerierung fasziniert. Sora KIund jetzt verwandelt Googles bahnbrechendes KI-Modell einfache Bilder in vollständig spielbare virtuelle Umgebungen.
Ja, Sie können jetzt eine herstellen komplettes 2D-Plattformspiel mit einer Bewegung Ihres Handgelenks (oder zumindest einer Berührung Ihrer Tastatur).
Tim RocktäschelOpen-Endedness-Teamleiter bei Google Deep Mindhat die Geburt von Google Genie auf X mit den folgenden Worten angekündigt:
Ich bin wirklich gespannt, was zu enthüllen @GoogleDeepMindDas Open Endedness-Team hat es geschafft
. Wir stellen Genie vor
ein grundlegendes Weltmodell, das ausschließlich auf Internetvideos trainiert wird und anhand von Bildaufforderungen eine endlose Vielfalt aktionssteuerbarer 2D-Welten erzeugen kann. pic.twitter.com/TnQ8uv81wc
— Tim Rocktäschel (@_rockt) 26. Februar 2024
Was ist Google Genie?
Traditionelles Spieledesign erfordert oft komplexe Programmierkenntnisse. Mit Google Genie werden die technischen Hürden deutlich gesenkt. Die KI übernimmt die komplizierten Prozesse der Umwandlung Ihrer Idee in eine spielbare virtuelle Umgebung, sodass Sie sich auf die pure Freude am Schaffen konzentrieren können.
Google Genie steht an der Spitze der KI-Technologie und wird als „Stiftung Weltmodell„.
Das bedeutet, dass es anhand eines riesigen Datensatzes von Internetvideos trainiert wurde, insbesondere solchen, die das Gameplay zeigen. Durch dieses Training entwickelt Genie ein tiefes Verständnis dafür, wie Umgebungen funktionieren und wie Spieler normalerweise mit ihnen interagieren.
Stellen Sie sich Google Genie als Ihren persönlichen Spieleentwicklungsassistenten vor. Sie müssen lediglich einen Ausgangspunkt angeben. Dies könnte sein:
- ein Bild
- A schriftliche Beschreibung
- A einfache handgezeichnete Skizze
Google Genie nimmt dann Ihre Eingaben auf und nutzt seine kreative Kraft, um einen einzigartigen, vollständig spielbaren virtuellen Raum zu schaffen.
Die wahre Magie liegt darin, dass Google Genie das Erstellen lernt steuerbare virtuelle Welten ohne spezifische Spielanweisungen. Es analysiert Videos, um die Grundregeln von Umgebungen zu verstehen und herauszufinden, womit Spieler interagieren können. Bemerkenswerterweise ermöglicht dies konsistente Kontrollschemata auch in völlig neuen, KI-generierten Welten.

Die Magie von Google DeepMind
Google DeepMind schafft es, uns mit fast allem, was es tut, zu schockieren, und Google Genie ist da keine Ausnahme.
Das Gehirn von Google Genie basiert auf einem speziellen Transformatortyp namens a raumzeitlicher (ST) Transformator. Im Gegensatz zu herkömmlichen Transformatoren, die für Text entwickelt wurden, sind ST-Transformatoren speziell auf das Verstehen von Videos abgestimmt. Sie achten darauf, was in jedem einzelnen Frame geschieht (räumliche Aufmerksamkeit) und auch darauf, wie sich die Dinge über mehrere Frames hinweg im Laufe der Zeit verändern (zeitliche Aufmerksamkeit). Dadurch können sie die komplexen Muster in bewegten Bildern viel besser verarbeiten.
Videos bestehen aus einer Menge Pixel, was für ein Model eine Menge sein kann. Genie verwendet einen Video-Tokenizer, um diese mit Pixeln gefüllten Frames zu komprimieren in kleinere, einfacher zu verarbeitende Stücke, sogenannte Token, zerlegt. Stellen Sie sich das so vor, als würden Sie einen ganzen Film in eine Reihe von Schlüsselsymbolen übersetzen. Diese Vereinfachung macht den gesamten Videoerstellungsprozess reibungsloser und schneller.
Das LAM ist wie ein Detektiv in Google Genie. Es sieht sich Videos an und versucht herauszufinden, welche unausgesprochenen Aktionen zwischen den Bildern stattfinden. Dies ist wichtig, denn wenn Sie steuern möchten, wie ein generiertes Video abgespielt wird, müssen Sie die Aktionen verstehen, die es steuern. Da Videos aus dem Internet keine Aktionsbezeichnungen enthalten, muss der LAM lernen, diese Dinge selbst herauszufinden.
Der Dynamikmodell ist das Herzstück der Videoproduktionsleistung von Google Genie. Es übernimmt die Video-Tokens und die ermittelten Aktionen vom LAM und verwendet sie, um vorherzusagen, wie der nächste Frame des Videos aussehen soll. Es ist, als hätte man eine Kristallkugel, die einem den nächsten Schritt in einem Film zeigen kann, basierend auf dem, was bisher passiert ist und der Aktion, die man ergreifen möchte.
VQ-VAE ist eine ausgefallene Technik, die Google Genie dabei hilft, Informationen zu organisieren. Es ist so, als würde man sowohl dem Video-Tokenizer als auch dem LAM ein spezielles Codebuch geben, um Dinge in kleinere, besser handhabbare Teile zu übersetzen. Dadurch wird das Erlernen und Darstellen komplexer Muster in Videos wesentlich effizienter.

Hier ist eine Zusammenfassung des Arbeitsablaufs von Google Genie:
- Latente Aktionsinferenz:
- Encoder: Nimmt eine Videosequenz auf. Es generiert kontinuierliche Darstellungen, die sich auf die zwischen den Frames stattfindenden Aktionen beziehen
- Decoder: Diese Komponente existiert nur für das Training. Es sagt den tatsächlichen nächsten Frame anhand vorheriger Frames und der vom Encoder erzeugten latenten Aktionen voraus. Dies hilft dabei, das LAM zu trainieren, sinnvolle Aktionsdarstellungen zu generieren
- VQ-VAE: Die vorhergesagten latenten Aktionen werden in einen kleinen Satz diskreter Codes quantisiert. Dies gewährleistet ein begrenztes Aktionsvokabular und erleichtert die menschliche Kontrolle während des Generierungsprozesses
- Video-Tokenisierung:
- ST-Transformer-basierter Video-Tokenizer (ST-ViViT): Bezieht während der Tokenisierungsphase sowohl räumliche als auch zeitliche Informationen ein. Dies verbessert die Qualität der Videogenerierung im Vergleich zu rein räumlichen Tokenizern
- Dynamikmodellierung:
- MaskGIT-Transformer: Genie verwendet eine reine Decoder-Variante der MaskGIT-Architektur
- Eingang: Bei jedem Schritt erhält es sowohl die vorherigen Video-Tokens als auch die entsprechende latente Aktion
- Ausgabe: Sagt die Token voraus, die den nächsten Frame darstellen
- Ausbildung: Mit einem Kreuzentropieverlust trainiert, um die vorhergesagten Token mit den echten Token aus dem Video abzugleichen. Maskierung wird zur Trainingszeit verwendet, um die Robustheit zu verbessern
- Inferenz:
- Initialisierung: Der Benutzer stellt einen ersten Bildrahmen bereit, der tokenisiert wird
- Aktionsauswahl: Der Benutzer wählt eine gewünschte Aktion aus dem diskreten Vokabular aus, das er während der LAM-Phase gelernt hat
- Vorhersage: Das Dynamikmodell generiert die Token des nächsten Frames basierend auf den anfänglichen Frame-Tokens und der gewählten Aktion
- Dekodierung: Der Decoder des Video-Tokenizers wandelt die vorhergesagten Token wieder in einen Video-Frame um
- Autoregression: Der Vorgang wird wiederholt, wobei der neu generierte Frame und eine neue benutzerdefinierte Aktion als Eingabe für die nächste Vorhersage dienen
Möchten Sie mehr erfahren? Hier ist Forschungsbericht von Google Genie.

So verwenden Sie Google Genie
Während Google Genie ist noch nicht für die öffentliche Nutzung verfügbarfinden Sie weitere Informationen und faszinierende Demos auf der offiziellen Website. Und seien Sie vorsichtig: Diese Technologie hat das Potenzial, die Art und Weise, wie wir Spiele erstellen und erleben, grundlegend zu verändern!
Die Zukunft des Gamings gestalten
Obwohl Google Genie noch in den Kinderschuhen steckt, demonstriert es die erstaunliche Kraft der KI-gesteuerten Kreativität. Es verwischt die Grenze zwischen unseren imaginären Welten und denen, in denen wir spielen, und weist auf eine Zukunft hin, in der das Teilen Ihres Spiels so einfach ist wie das Teilen eines Fotos.
Allerdings gibt es Herausforderungen zu meistern. Momentan, Genie zeichnet sich durch 2D-Plattformspiele ausaber die Skalierung auf komplexe 3D-Welten bleibt schwierig.
Zusätzlich die generierten Spiele haben relativ einfache Bedienelemente; Zukünftige Forschung wird sich wahrscheinlich auf eine feinere Steuerung und komplexe Mechanik konzentrieren.
Als generatives Modell kann Genie im Guten wie im Schlechten überraschend sein – wenn es darum geht, Wege dazu zu finden Den Generierungsprozess auf die Absicht des Erstellers ausrichten ist ein Bereich aktiver Forschung.
Hervorgehobener Bildnachweis: Oleg Gamulinskii/Pixabay.