Eine neue Version des KI-Bildgenerators von Stability AI, Stable Diffusion XL (SDXL), wurde veröffentlicht. Die neueste Version, SDXL 0.9, erzeugt realistischere Grafiken als der Vorgänger. Darüber hinaus werden Hände genau reproduziert, was bei früheren KI-generierten Bildern ein Fehler war.
Stability AI behauptet, dass das neue Modell „einen Sprung in kreative Anwendungsfälle für generative KI-Bilder“ darstellt. Bei Verwendung derselben Eingabeaufforderungen mit SDXL 0.9 und Stable Diffusion XL Beta zeigten die Beispielfotos aus dem Blogartikel Verbesserungen.
Es gibt viele Aspekte, in denen sich diese Verbesserungen bemerkbar machen, aber am wichtigsten ist, dass wir genauere Ergebnisse für die Hände erhalten. Vor dem Update erzeugten diese KI-Bildgeneratoren Spaghetti-Hände, die die gesamte Realität und Schönheit der Bilder zerstörten. Von nun an wird das kein Problem mehr sein.



Links – SDXL Beta, rechts – SDXL 0,9 (Bildnachweis)
Alles, was Sie über SDXL 0.9 wissen müssen
Der Hauptfaktor hinter dieser kompositorischen Verbesserung für SDXL 0.9 gegenüber der Betaversion ist die Parameteranzahl, also die Summe aller Gewichte und Bias im neuronalen Netzwerk, auf dem das Modell trainiert wird.
Mit einem Basismodell mit 3,6 Milliarden Parametern und einer Ensemble-Pipeline mit 6,6 Milliarden Parametern (die endgültige Ausgabe wird durch die Ausführung mit zwei Modellen und die Kombination der Ergebnisse erzeugt) weist SDXL 0.9 eine der höchsten Parameterzahlen aller Open-Source-Bildmodelle auf. Die generierte Ausgabe der ersten Stufe wird mithilfe des zweiten Stufenmodells der Pipeline verfeinert.
„Trotz seiner Fähigkeit, auf einer modernen Consumer-GPU ausgeführt zu werden, stellt SDXL 0.9 einen Sprung in kreative Anwendungsfälle für generative KI-Bilder dar. „Die Fähigkeit, hyperrealistische Kreationen für Filme, Fernsehen, Musik und Lehrvideos zu erstellen sowie Fortschritte für Design und industrielle Nutzung zu bieten, macht SDXL zu einem Spitzenreiter bei realen Anwendungen für KI-Bilder“, sagte Stability AI in seinem Bericht Blogeintrag.

Negative Eingabeaufforderung: 3D-Rendering, glatt, plastisch, verschwommen, körnig, niedrige Auflösung, Anime
(Links – SDXL Beta, rechts – SDXL 0.9) (Bildnachweis)
Außerirdische, Wölfe und eine Person mit einer Kaffeetasse gehören zu den Bildern, die das neueste Modell mit höherer Auflösung und naturgetreueren Händen zu erzeugen scheint. Vor der Veröffentlichung von Midjourney v5 im März, einer auf Discord basierenden Wettbewerbsplattform, waren Hände ein einfacher Hinweis zur Identifizierung von KI-generierter Kunst.
Was ist mit den Beta-Startstatistiken für SDXL 0.9?
Wie sieht es also mit dem Feedback der Community aus? Glücklicherweise hat Stability AI die Frage in seinem Blogbeitrag beantwortet.
„Seit der Betaversion von SDXL Start am 13. Aprilwir haben tolle Reaktionen von uns erhalten Discord-Community von fast 7.000 Nutzern. Diese Benutzer haben mehr als 700.000 Bilder generiert, durchschnittlich mehr als 20.000 pro Tag. Mehr als 54.000 Bilder wurden in die „Showdowns“ der Discord-Community aufgenommen, wobei 3.521 SDXL-Bilder als Gewinner nominiert wurden“, sagte Stability AI.
Systemanforderungen für SDXL 0.9
Trotz der robusten Ausgabe und des anspruchsvollen Modelldesigns kann SDXL 0.9 auf einer aktuellen Verbraucher-GPU mit nur den folgenden Anforderungen ausgeführt werden: ein Computer mit Windows 10 oder 11 oder Linux, 16 GB RAM und eine Nvidia GeForce RTX 20-Grafikkarte (oder höher). Standard) mit mindestens 8 GB VRAM. Linux-Benutzer können bei Eignung auch eine AMD-Karte mit 16 GB VRAM verwenden.
- Betriebssystem: Windows 10, 11 oder Linux
- RAM: 16 GB
- GPU: Nvidia GeForce RTX 20 mit mindestens 8 GB VRAM. Wenn Sie Linux-Benutzer sind, können Sie auch eine AMD-Karte mit 16 GB VRAM verwenden.
KI-generierte Bilder werden besser
KI-generierte Bilder werden dank neuer Innovationen wie Stability AI SDXL 0.9 jeden Tag besser. Dies bedeutet jedoch nicht, dass jedes andere Tool ebenfalls auf einem ähnlichen Niveau ist. Es gibt viele Probleme, mit denen die Entwickler konfrontiert sind.
Die Erzeugung klarer, hochauflösender Bilder ist eines der Hauptprobleme für KI-Bildproduzenten. Die meisten aktuellen Modelle können Fotos nur mit einer Auflösung von 256 x 256 Pixeln oder weniger erstellen, was nicht ausreicht, um kleinste Details komplexer Objekte wie Hände oder Gesichter einzufangen.
Die Modelle benötigen mehr Daten und Rechenleistung, um größere Bilder zu erstellen, was nicht immer möglich oder praktikabel ist. Bei den Modellen kann es auch zu verschwommenen oder verzerrten Ausgaben oder zu einem Moduskollaps kommen, bei dem sie für unterschiedliche Eingaben ähnliche oder identische Bilder erzeugen, die Kohärenz und den Realismus der Bilder jedoch nicht aufrechterhalten.
Ein weiteres Problem für KI-Bildproduzenten ist die Erstellung von Bildern, die mit der Eingabe oder der Umgebung konsistent und kohärent sind. Die Modelle müssen die Semantik und Logik der Eingabe verstehen, um entsprechende Bilder zu erzeugen.
Das Modell muss ein Bild erzeugen, das den Stil und Inhalt des Textes genau wiedergibt, beispielsweise wenn es sich bei der Eingabe um eine Textbeschreibung eines Bildes handelt. Dies ist jedoch nicht immer einfach, da die Sprache unklar, mangelhaft oder widersprüchlich sein kann und dem Modell möglicherweise das Wissen oder der gesunde Menschenverstand fehlt, um es herauszufinden.
Darüber hinaus kann das Modell Bilder liefern, die für den Text irrelevant sind oder nicht mit ihm übereinstimmen, z. B. eine Katze, wenn der Text auf einen Hund hinweist. Tools wie Stability AI SDXL 0.9 werden uns jedoch dabei helfen, alle Probleme zu überwinden.
Hervorgehobener Bildnachweis: Stabilitäts-KI