Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Habe CogVideoX ausprobiert, eine weitere Open-Source-Text-zu-Video-KI

byKerem Gülen
September 4, 2024
in Künstliche Intelligenz
Home Nachricht Künstliche Intelligenz
Share on FacebookShare on Twitter
Google Preferred Source

Tsinghua Universität Und Zhipu KI haben in Zusammenarbeit CogVideoX eingeführt, ein Open-Source-Text-zu-Video-Modell, das bereit ist, KI-Schwergewichte wie Runway, Luma AIUnd Pika Labs. Diese Innovation wurde in einer aktuellen arXiv-Veröffentlichung ausführlich beschrieben und bietet Entwicklern weltweit erweiterte Funktionen zur Videoerstellung.

CogVideoX: Neues Open-Source-KI-Tool zur Text-zu-Video-Erstellung

„Wir stellen CogVideoX vor, groß angelegte Diffusionstransformatormodelle, die für die Generierung von Videos auf der Grundlage von Textaufforderungen entwickelt wurden. Um Videodaten effizient zu modellieren, schlagen wir vor, einen 3D-Variational Autoencoder (VAE) zu nutzen, um Videos sowohl in räumlicher als auch in zeitlicher Dimension zu komprimieren. Um die Text-Video-Ausrichtung zu verbessern, schlagen wir einen Expertentransformator mit dem Experten-adaptiven LayerNorm vor, um die tiefe Fusion zwischen den beiden Modalitäten zu erleichtern. Durch den Einsatz einer progressiven Trainingstechnik ist CogVideoX in der Lage, kohärente, lang andauernde Videos zu produzieren, die durch signifikante Bewegungen gekennzeichnet sind“, so das Zeitung liest.

Die Tsinghua-Universität ist stark in die KI-Forschung involviert, mit mehreren bemerkenswerten Projekten auf dem Konto.
Kürzlich arbeiteten sie gemeinsam an OpenVoice, einer Open-Source-Plattform zum Klonen von Stimmen, die gemeinsam mit dem MIT und Meine Shellund jetzt haben sie CogVideoX-5B eingeführt, ein Text-zu-Video-Modell. Sie haben sich auch mit Shengshu Technology zusammengeschlossen, um Vidu AIein Tool, das die Videoerstellung mithilfe von KI vereinfachen soll.

CogVideoX kann aus einfachen Textaufforderungen hochwertige, zusammenhängende Videos mit einer Länge von bis zu sechs Sekunden erstellen.

Das herausragende Modell, CogVideoX-5B, verfügt über 5 Milliarden Parameter und produziert Videos mit einer Auflösung von 720 × 480 und 8 Bildern pro Sekunde. Diese Spezifikationen können zwar nicht mit den neuesten proprietären Systemen mithalten, der wahre Durchbruch liegt jedoch im Open-Source-Ansatz von CogVideoX.

Open-Source-Modelle revolutionieren das Feld durchVeröffentlichung ihres Codes und ihrer Modellgewichte der Öffentlichkeit hat das Tsinghua-Team eine Technologie demokratisiert, die einst die Domäne gut finanzierter Technologiegiganten war. Dieser Schritt dürfte die Weiterentwicklung von KI-generierten Videos beschleunigen, indem er das kollektive Fachwissen der globalen Entwicklergemeinschaft nutzt.

Die beeindruckenden Ergebnisse von CogVideoX erreichten die Forscher durch mehrere wichtige Innovationen, darunter eine 3D-Variations-Autoencoder für effiziente Videokomprimierung und einen „Experten-Transformator“ zur Verbesserung der Text-Video-Ausrichtung.

„Um die Abstimmung zwischen Videos und Texten zu verbessern, schlagen wir einen Experten-Transformer mit einem fachmännisch angepassten LayerNorm vor, um die Fusion der beiden Modalitäten zu erleichtern“, heißt es in dem Artikel. Dieser Durchbruch ermöglicht eine präzisere Interpretation von Textaufforderungen und eine genauere Videogenerierung.

Wie kann ich CogVideoX ausprobieren?

  • Gehen Sie zunächst zur HuggingFace-Plattform wo die CogVideoX-5B – Open-Source-Tool zur Videogenerierung steht zum Testen bereit.
CogVideoX ist eine weitere Open-Source-Text-zu-Video-KI
Schritt 1
  • Formulieren Sie eine beschreibende Eingabeaufforderung für das Video, das Sie generieren möchten. Wir haben beispielsweise Folgendes verwendet:
Eine friedliche Gartenszene, in der ein einzelner Schmetterling anmutig durch die Luft flattert und seine leuchtenden Flügel das Licht einfangen, während er sanft auf der ausgestreckten Hand eines Kindes landet. Die Augen des Kindes weiten sich vor Ehrfurcht und fangen die Magie des Augenblicks ein, als der Schmetterling zart auf seinen kleinen Fingern ruht. Um sie herum wiegen sich blühende Blumen sanft im Wind, während ein entfernter Bach leise murmelt und der heiteren Atmosphäre ein Gefühl der Ruhe verleiht. Die Hand des Kindes bleibt ruhig und heißt das zarte Geschöpf herzlich willkommen und verkörpert eine Verbindung zwischen Unschuld und den Wundern der Natur.
  • Sobald Ihre Eingabeaufforderung fertig ist, Klicken Sie auf die Schaltfläche, um das Video zu generierenSie müssen einen Moment warten, während das Tool Ihre Anfrage verarbeitet und das Video basierend auf Ihrer Beschreibung erstellt.
CogVideoX ist eine weitere Open-Source-Text-zu-Video-KI
Schritt 2
  • Nachdem das Video generiert wurde, können Sie es direkt von der Plattform herunterladen. So können Sie das Ergebnis Ihrer Eingabeaufforderung anzeigen und sehen, wie genau das Tool Ihre Beschreibung interpretiert hat.
CogVideoX ist eine weitere Open-Source-Text-zu-Video-KI
Schritt 3
  • Schauen Sie sich das Video an. Auch wenn das Ergebnis vielleicht nicht umwerfend ist, ist es wichtig zu wissen, dass sich diese Art von Tools schnell verbessern. Wie wir es bei der Entwicklung von ChatGPT gesehen haben, steht wahrscheinlich ein bedeutender Durchbruch bei KI-generierten Videos bevor.

Habe es ausprobiert – es ist zwar noch nicht umwerfend, aber diese Tools tauchen überall auf. Erwarte bald einen Durchbruch, so wie wir ihn bei ChatGPT gesehen haben. pic.twitter.com/53xYz6lBLf

— Kerem Gülen (@kgulenn) 28. August 2024

Wir werden immer mehr Deepfakes sehen

Doch die breite Verfügbarkeit einer so leistungsstarken Technologie birgt auch Gefahren. Das Missbrauchspotenzial, insbesondere bei der Erstellung von Deepfakes oder irreführenden Inhalten, ist ein ernstes Problem, mit dem sich die KI-Community auseinandersetzen muss. Die Forscher selbst erkennen diese ethischen Bedenken an und drängen auf einen verantwortungsvollen Einsatz der Technologie.

Da KI-generierte Videos immer zugänglicher und fortschrittlicher werden, betreten wir bei der Erstellung digitaler Inhalte unbekanntes Terrain. Der Start von CogVideoX könnte einen ganz entscheidenden Moment darstellen, der möglicherweise die Macht von den großen Akteuren in diesem Bereich auf ein offeneres, dezentraleres Modell der KI-Entwicklung umverteilt.

Die tatsächlichen Auswirkungen dieser Demokratisierung sind noch ungewiss. Wird sie eine neue Welle der Kreativität und Innovation auslösen oder werden sich die bestehenden Probleme der Desinformation und digitalen Manipulation verschärfen?


Bildnachweis: Kerem Gülen/Mitten auf der Reise

Tags: EmpfohlenKIVideo

Related Posts

Meta führt KI-Geschäftsagenten auf WhatsApp, Instagram und Messenger ein

Meta führt KI-Geschäftsagenten auf WhatsApp, Instagram und Messenger ein

Juni 4, 2026
Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Anthropic lädt 150 weitere Organisationen zum Project Glasswing ein

Juni 3, 2026
Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Microsoft stellt Project Solara für eine Agent-First-Zukunft vor

Juni 3, 2026
Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Google wird es Websites ermöglichen, KI-Suchergebnisse abzulehnen

Juni 3, 2026
OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

OpenAI erweitert Codex um Unternehmens-Plug-ins und die neue Sites-Funktion

Juni 3, 2026
Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Meta behebt KI-Fehler, der die Übernahme von Instagram-Konten ermöglichte

Juni 2, 2026

Recent Posts

  • Nintendo wird in Europa eine reparaturfreundliche Switch 2 herausbringen
  • Britischer Gesetzgeber verklagt xAI wegen expliziter, von Grok generierter Deepfakes
  • Apple beginnt in Texas mit der Durchsetzung des Gesetzes zur Altersüberprüfung
  • Meta führt KI-Geschäftsagenten auf WhatsApp, Instagram und Messenger ein
  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.