Google hat gestartet ein neues KI-Bildgenerierungstool namens Whisk, mit dem Benutzer visuelle Ausgaben aus vorhandenen Bildern erstellen können. Wie durch ein Update auf Google Labs angekündigt, nutzt Whisk das Gemini-Sprachmodell für das Bildverständnis und den Bildgenerator Imagen 3. Derzeit ist es nur in den USA erhältlich
Google bringt Whisk auf den Markt: KI-Tool zur kreativen Bildgenerierung
Whisk erfasst die „Essenz“ des bereitgestellten Bildes, anstatt es direkt zu reproduzieren. Benutzer geben ein Bild zusammen mit vordefinierten Stilen ein, einschließlich Aufkleber, Emaille-Pin und Plüschtier, um eine kreativ veränderte Ausgabe zu erhalten. Dieses Tool konzentriert sich auf Brainstorming und schnelle Visualisierungen und nicht auf endgültige Produktionsinhalte. Die vereinfachte Benutzeroberfläche unterstützt Benutzer bei der Erstellung vorläufiger Konzepte.

Der erweiterte Editormodus, auf den über die Option „Von Grund auf neu beginnen“ zugegriffen werden kann, bietet Benutzern die Möglichkeit, Details über Themen-, Szenen- und Stilkategorien hinweg anzugeben. Benutzer können zur Verfeinerung auch Text hinzufügen. Allerdings entsprachen einige Ergebnisse nicht ganz den Benutzererwartungen, wie beim Testen beobachtet wurde. Google weist darauf hin, dass Whisk die Attribute der Ausgabebilder, wie etwa Größe, Gewicht und Frisur, von der Originaleingabe abweichen wird.

Unter der Haube baut die Funktionalität von Whisk auf der Fähigkeit des Gemini-Modells auf, detaillierte Bildunterschriften zum hochgeladenen Bild zu generieren. Diese Untertitel werden dann vom Imagen 3-Generator verwendet, um neue visuelle Elemente zu erstellen. Der Prozess unterstreicht das Ziel von Whisk, die kreative Freiheit zu fördern und es Benutzern zu ermöglichen, Elemente in verschiedenen visuellen Formaten neu zu mischen.
Parallel zur Einführung von Whisk hat Google Veo 2 vorgestellt, eine neue Version seines Videogenerierungsmodells. Dieses neueste Update demonstriert verbesserte Videogenerierungsfunktionen und produziert hochwertige Inhalte mit ausgefeiltem Verständnis der realen Physik und menschlichen Bewegungen. In Tests zeigte Veo 2 eine verringerte Häufigkeit von „Halluzinationen“, die typischerweise fehlerhafte oder unerwartete Details in generierten Inhalten beinhalten.

Benutzer können in ihren Videoaufforderungen bestimmte Aufnahmestile oder -attribute anfordern und so den Detaillierungsgrad in den generierten Ausgaben erhöhen, einschließlich der Anforderung von Videos mit 4K-Auflösung. Mit Veo 2 produzierte Videos veranschaulichen die hochwertigen Kinoergebnisse, die jetzt erreichbar sind und verschiedene Benutzeranforderungen effektiv erfüllen.
Auch das Modell Imagen 3 hat ein Upgrade erhalten, das in der Lage ist, deutlich hellere und besser komponierte Bilder in einer Vielzahl von Stilen zu erzeugen. Dieses verbesserte Modell folgt Benutzeranweisungen genauer und generiert komplizierte Texturen. Durch Benutzertests im Vergleich zu konkurrierenden Bilderzeugungsmodellen erzielte Imagen 3 Ergebnisse auf dem neuesten Stand der Technik.

Als Teil des Engagements von Google für eine verantwortungsvolle KI-Entwicklung enthalten die Ergebnisse von Whisk und den neuesten Modellen ein unsichtbares SynthID-Wasserzeichen, das dabei hilft, Fehlinformationen zu verhindern. Dieser Fokus auf Sicherheit geht mit einem sorgfältigen Rollout-Prozess einher. Benutzer können über Google Labs auf diese neuen Funktionen zugreifen und sich dort für Updates und Funktionserweiterungen anmelden.
Bildnachweis: Google