Bytedance, die Muttergesellschaft von Tiktok, hat kürzlich gestartet Omnihuman-1, ein hoch entwickeltes Framework der AI-Videogenerierung, das hochwertige Videos aus einem einzigen Bild erstellen kann, das mit einem Audioclip in Verbindung steht. Dieses Modell kombiniert Video-, Audio- und nahezu perfekte Lippensynchronisierungsfunktionen.
Bytedance startet Omnihuman-1: Ein neues AI-Videogenerierungsmodell
Omnihuman-1 ist bemerkenswert, nicht nur fotorealistische Videos, sondern auch anthropomorphe Cartoons, animierte Objekte und komplexe Posen zu erstellen. Daneben führte Bytedance ein weiteres KI-Modell namens Goku ein, das eine ähnliche Text-zu-Video-Qualität mit einer kompakten Architektur von 8 Milliarden Parametern erzielt, die speziell auf den Werbemarkt abzielen.
Diese Entwicklungen positionieren Bytedance unter den Top -Spielern im KI -Feld neben chinesischen Tech -Giganten wie Alibaba und Tencent. Seine Fortschritte stören die Landschaft für Inhalte von AI-generiertem Inhalt im Vergleich zu anderen Unternehmen wie Kling AI erheblich, da die umfangreiche Video-Medienbibliothek von Bytedance potenziell die größte nach Facebook ist.
Die Demo-Videos für Omnihuman-1 zeigen beeindruckende Ergebnisse aus verschiedenen Eingangstypen mit einem hohen Detailniveau und minimalen Störungen. Im Gegensatz zu herkömmlichen DeepFake-Technologien, die sich häufig ausschließlich auf Gesichtsanimationen konzentrieren, umfasst Omnihuman-1 Ganzkörperanimationen, die Gesten und Ausdrücke genau nachahmen. Darüber hinaus passt sich das KI -Modell gut an verschiedene Bildqualitäten an und erzeugt unabhängig von der ursprünglichen Eingabe eine reibungslose Bewegung.
Technische Spezifikationen von Omnihuman-1
Omnihuman-1 nutzt ein Diffusionsübertragungsmodell, um Bewegung durch Vorhersage von Bewegungsmustern Frame-by-Rahmen zu erzeugen, was zu realistischen Übergängen und Körperdynamik führt. Das Modell wurde auf einem umfangreichen Datensatz von 18.700 Stunden menschlichem Videomaterial ausgebildet und versteht eine breite Palette von Bewegungen und Ausdrücken. Bemerkenswerterweise verbessert die Trainingsstrategie „Omni-Konditionen“, die mehrere Input-Signale wie Audio-, Text- und Pose-Referenzen integriert, die Genauigkeit von Bewegungsvorhersagen.
Ausprobiert Cogvideox, eine weitere Open-Source-Text-zu-Video-KI
Trotz der vielversprechenden Fortschritte in der AI -Videogenerierung sind die ethischen Auswirkungen von Bedeutung. Die Technologie führt Risiken wie das Potenzial für den Missbrauch von Deepfake bei der Erzeugung irreführender Medien, Identitätsdiebstahl und anderer böswilliger Anwendungen ein. Infolgedessen hat Bytedance Omnihuman-1 noch nicht für die öffentliche Verwendung veröffentlicht, wahrscheinlich aufgrund dieser Bedenken. Wenn es öffentlich verfügbar ist, werden wahrscheinlich starke Schutzmaßnahmen wie digitales Wasserzeichen und Verfolgung von Content -Authentizität erforderlich sein, um potenzielle Missbräuche zu mildern.
Ausgewähltes Bildnachweis: Claudio Schwarz/Unsplash