OpenAI hat gerade seinen fortschrittlichsten Bildgenerator in GPT-4O integriert, wodurch die Bilderzeugung zu einer „primären Fähigkeit“ seiner Sprachmodelle gemacht wurde. Dies ermöglicht die Erstellung präziser, fotorealistischer Bilder, die für verschiedene Aufgaben nützlich sind, von Diagrammen bis zur visuellen Kommunikation.
Menschen haben sich immer auf visuelle Bilder verlassen, um mehr als nur Dekoration zu dekorieren – denken Sie nach Höhlenmalereien, die sich zu modernen Infografiken entwickeln. Während aktuelle generative Modelle sich bei der Erstellung von atemberaubenden Bildern auszeichnen, lassen sie sich häufig in praktischen Bildern aus. Logos und Diagramme erfordern beispielsweise eine Mischung aus präziser Bedeutung und gemeinsamer Kontext, was GPT-4O liefern soll.
GPT-4O kann Text genau rendern, die Aufforderungen genau befolgen und seine integrierte Wissensbasis nutzen-einschließlich der transformierenden hochgeladenen Bilder. Diese Funktionen machen die Bilderstellung zu einem praktischeren Werkzeug und verbessern die visuelle Kommunikation mit Präzision.
Das Training beinhaltete die Auslegung der Modelle einer Mischung aus Online -Bildern und -texten und lehrte ihnen nicht nur, wie Bilder mit der Sprache zusammenhängen, sondern wie sie sich miteinander verbinden. Die intensive Nachausbildung verbessert die visuelle Fließfähigkeit des Modells weiter, was zu einer konsistenten und kontextbewussten Bildgenerierung führt.
Zu den Funktionen der GPT-4O-Bildgenerierung gehören:
- Textrendern: Integriert präzise Symbole in Bilder.
- Multiturn-Generation: Verfeinert Bilder durch kontinuierliche Konversation.
- In-Kontext-Lernen: Analysiert und lernt von benutzerbezogenen Bildern.
- Weltwissen: Verknüpft das Wissen zwischen Text und Bildern.
- Fotorealismus und Stil: Erstellt oder transformiert Bilder in verschiedenen Stilen.
Trotz dieser Fortschritte ist das Modell nicht fehlerfrei. OpenAI erkennt Einschränkungen wie Zuschauerprobleme, Halluzinationen und Herausforderungen bei präziser Grafik und mehrsprachiger Textrendern an, die alle planen, nach dem Start zu gehen.
Sicherheit bleibt eine Priorität. OpenAI zielt darauf ab, die kreative Freiheit mit robusten Sicherheitsstandards in Einklang zu bringen und Maßnahmen wie C2PA -Herkunfts- und interne Suchmechanismen zur Verhinderung von Missbrauch durchzuführen.
Die neue Bildgenerierungsfunktion in GPT-4O ist zu Plus-, Pro-, Team- und kostenlosen Benutzern von ChatGPT. Es wird bald auch für Enterprise- und EDU -Benutzer verfügbar sein. Entwickler können sich in den kommenden Wochen auf den API -Zugang freuen. Benutzer können Bilder einfach erstellen, indem sie ihre Anforderungen im Chat beschreiben und Details wie Seitenverhältnisse oder Farben angeben.
Aufgrund der detaillierten Art der Bilder konnten sie bis zu einer Minute dauern, bis sie rendern.