Die nächste Phase der KI wird nicht allein durch bessere Antworten definiert.
Es wird durch Systeme definiert, die im Kontext agieren, tiefgreifend wahrnehmen und die Welt, die sie verändern sollen, modellieren können.
Die nächste KI-Frage ist nicht nur, was Modelle wissen
Die KI-Konversation beginnt, über die Chatbot-Schnittstelle hinauszugehen.
In den letzten Jahren war die sprachliche Form die sichtbarste Form der KI. Menschen tippten Fragen, Modelle erstellten Antworten und die Industrie maß den Fortschritt durch Argumentation, Kodierung, Schreiben, Zusammenfassung und Suche. Diese Phase ist noch nicht vorbei. Sprachintelligenz wird immer noch nützlicher, eingebetteter und kommerzieller.
Aber es ist nicht mehr die ganze Geschichte.
Die wichtigere Frage ist nun, was passiert, wenn KI-Systeme nicht nur Antworten generieren, sondern auch beginnen, Werkzeuge zu nutzen, Arbeitsabläufe zu verwalten, den Raum zu verstehen und über die physische Welt nachzudenken. Hier beginnt sich die Branche zu wenden: von der Sprache zur Aktion, vom Text zu Schnittstellen, von statischen Antworten zu dynamischen Umgebungen.
Dieser Wandel ist erst seit HumanX deutlicher geworden. Globale KI-Ausgaben werden jetzt durch Infrastruktur und Agententools bestimmt. Es geht nicht einfach nur darum, dass ein anderes Modell verfügbar wurde. Es geht darum, dass Agenten Teil des Unternehmensstapels werden.
Deshalb sind die HumanX-Gespräche in San Francisco immer noch wichtig. Die Veranstaltung ist vorbei, aber sie hat einen Wandel festgehalten, der jetzt sichtbarer wird: KI bewegt sich von Systemen, die sprechen, zu Systemen, die handeln, und von Modellen, die Sprache verarbeiten, zu Modellen, die ein gewisses Verständnis der Welt erfordern.
„KI hat sich von der Fähigkeit, Fragen zu beantworten, zu der Fähigkeit entwickelt, Dinge zu tun.“
– Jensen Huang
Die dritte Welle der KI
Jensen Huang hat die Entwicklung direkt dargestellt. KI, so argumentierte er, sei viel umfassender als große Sprachmodelle. Sprache ist eine Form kodierter Informationen, aber Informationen werden auch in Genen, Proteinen, Chemikalien, Physik, Werkzeugen, Software und Umgebungen kodiert. Wo es Struktur gibt, kann KI lernen, diese darzustellen.
Diese Eingrenzung ist wichtig, weil sie dazu führt, dass KI nicht mehr als eine einzige Kategorie verstanden wird. Chatbots sind wichtig, aber sie sind nur ein Ausdruck einer viel größeren Technologie. Der tiefere Wandel besteht darin, dass KI zu einer Möglichkeit wird, domänenübergreifend darzustellen, vorherzusagen und zu handeln.
Huang beschrieb den aktuellen Moment als den Beginn einer dritten Welle. Die erste Welle der modernen KI war generativ: Modelle, die eine Informationsform in eine andere übersetzen konnten. Die zweite Welle war die Argumentation, bei der Modelle fundierter und nützlicher wurden. Die dritte Welle ist seiner Ansicht nach aggressiv.
„Was jetzt passiert, ist, dass KI nicht mehr in der Lage ist, Fragen zu beantworten, sondern jetzt in der Lage ist, Dinge zu tun“, sagte er.
So lässt sich der neue Schwerpunkt treffend beschreiben. Die Aufforderung ist nicht mehr nur eine Frage. Es handelt sich zunehmend um eine Aufforderung zum Handeln: Etwas erstellen, etwas analysieren, diese Tools verwenden, auf diese Dateien zugreifen, iterieren, bis die Arbeit erledigt ist.
Huangs nützlichster Satz könnte sogar noch einfacher gewesen sein: „KI ist Software, die Software nutzt.“
Diese Idee verändert die Bedeutung der Anwendungsschicht. Die Softwareindustrie basiert auf Werkzeugen, die von Menschen verwendet werden. Textverarbeitungsprogramme, Tabellenkalkulationen, Design-Suites, Unternehmenssysteme, Entwicklertools, CRMs, ERPs und Analyseplattformen wurden für Menschen entwickelt, die vor Bildschirmen sitzen. Wenn KI-Agenten zu Werkzeugnutzern werden, wächst die Zahl der Nutzer von Software dramatisch.
Das Ergebnis ist nicht nur mehr Automatisierung. Es ist eine Neuerfindung der Art und Weise, wie Software selbst genutzt wird.
Codierung zur Verwaltung von Agenten
Das OpenAI/Codex-Gespräch bei HumanX machte den gleichen Übergang innerhalb der Softwareentwicklung sichtbar.
Srinivas Narayanan beschrieb, dass sich Codierungstools von der Unterstützung zur Agentur entwickelt haben. Ingenieure nutzen KI nicht mehr nur, um Funktionen automatisch zu vervollständigen oder Code zu erklären. Sie sind Leitsysteme, die Software generieren, Software überprüfen und Fehler beheben. In seinen Worten besteht der Job darin, „in erster Linie nicht mehr Software zu schreiben, sondern Agenten zu verwalten“.
Diese Linie steht in direktem Zusammenhang mit dem, was in der Wissensarbeit geschieht. Die Codierung ist der erste Bereich, in dem dieses Agentenmuster deutlich sichtbar wird, da Software ungewöhnlich überprüfbar ist. Tests können geschrieben werden. Repositorys sind begrenzt. Fehler können reproduziert werden. Ausgänge können überprüft werden.
Die tiefere Behauptung besteht jedoch darin, dass Codierung eine Vorschau auf andere Arbeitsformen sein könnte. Narayanan beschrieb Codex und Codierungsmodelle als ein grundlegendes System für viele Arten der Wissensarbeit, von rechtlichen und finanziellen Arbeitsabläufen bis hin zur Automatisierung von Geschäftsprozessen.
Hier werden Agenten zu mehr als nur Entwicklertools. Sie werden zu einer allgemeinen Arbeitsschnittstelle. Wenn sie Dateien manipulieren, auf Systeme zugreifen, Anwendungen verwenden und innerhalb von Leitplanken agieren können, können dieselben Grundelemente, die sie für Code nützlich machen, sie auch für andere Arbeitsabläufe nützlich machen.
Die Einschränkung ist keine Einbildung. Es geht um Kontext, Sicherheit und Zugang. Kennt der Agent die Systeme des Unternehmens? Versteht er den Arbeitsablauf? Verfügt er über die richtigen Berechtigungen. Kann er überwacht werden. Kann man ihm vertrauen, wenn Agenten mit anderen Agenten interagieren.
Diese Fragen sind der Grund, warum die Agentenzukunft nicht nur ein Modellrennen ist. Es handelt sich um ein Infrastruktur-, Governance- und Schnittstellenproblem.
Der Übergang von Worten zu Welten
Wenn Jensen und OpenAI den Wandel vom Antworten zum Handeln zeigten, hat Fei-Fei Li das Gespräch auf eine andere Ebene gelenkt: räumliche Intelligenz
Ihr Argument war nicht, dass die Sprachintelligenz am Ende sei. Tatsächlich machte sie deutlich, dass Sprachmodelle weiterhin von entscheidender Bedeutung sein werden. Aber die menschliche Intelligenz ist nicht nur sprachlicher Natur. Wir verstehen die Welt durch Raum, Bewegung, Objekte, Körper, Geometrie, Interaktion und Zeit. Damit Maschinen in physischen und virtuellen Umgebungen nützlicher werden, benötigen sie eine Version dieses räumlichen Verständnisses.
Li beschrieb das Fehlen dieses Bewusstseins als Intelligenz im Dunkeln. In dem Moment, in dem Tiere sich ihres Körpers und ihrer Beziehung zur Welt bewusst würden, habe sich ihre Intelligenz rasch entwickelt, sagte sie. Für die KI bedeutet dies, dass das Sehen und Denken über die Welt kein Nebenprodukt der Intelligenz ist. Es steht im Mittelpunkt.
Ihre Definition eines Weltmodells war präzise: ein System, das den Raum verstehen, über Geometrie, Interaktivität, Physik und Dynamik nachdenken und schließlich 3D- und 4D-Raum erzeugen kann, genau wie heutige Computer Wörter erzeugen.
Das ist ein anderes Ziel als die Entwicklung eines besseren Chatbots. Es weist auf Systeme hin, die Trainingsumgebungen für Roboter schaffen, bei der Gestaltung von Erlebnissen helfen, die Bildgebung im Gesundheitswesen unterstützen, virtuelle Welten betreiben und den nächsten Zustand einer physischen Umgebung modellieren können.
Der Marble von World Labs, den Li auf der Bühne diskutierte, ist ein früher Ausdruck dieser Richtung: ein generatives Modell für echte 3D-konsistente Welten. Es geht nicht nur darum, dass solche Welten erzeugt werden können. Sie können zu Umgebungen werden, in denen andere Systeme lernen, testen, simulieren und handeln können.
Die nächste Phase ist Handeln plus Weltverständnis
Insgesamt deuteten die HumanX-Gespräche darauf hin, dass die nächste Phase der KI nicht durch eine Schnittstelle definiert wird.
Agenten brauchen Werkzeuge. Unternehmen brauchen Leitplanken. Software braucht Kontext. Robotik braucht räumliche Daten. Videomodelle benötigen ein zeitliches Verständnis. Weltmodelle benötigen Rechenleistung, neue Architekturen und Trainingsumgebungen, die im Internetmaßstab noch nicht existieren.
Der rote Faden besteht darin, dass KI näher an die Arbeit und näher an die Welt rückt. Es reicht nicht mehr aus, dass Modelle eine plausible Sprache produzieren. Sie müssen Maßnahmen ergreifen, Software bedienen, Umgebungen verstehen und Ergebnisse generieren, die überprüft, verwendet und vertrauenswürdig sind.
Das ist auch der Grund, warum San Francisco nach wie vor ein so nützlicher Blickfang ist. HumanX war nicht nur ein Treffen von KI-Führungskräften und -Gründern. Es war eine Momentaufnahme des nächsten Arguments der Branche: Die Grenze verschiebt sich von Worten zu Arbeitsabläufen und von Arbeitsabläufen zu Welten.
Das macht die Sprache nicht weniger wichtig. Es macht es zu einem Teil eines größeren Systems.
Die erste KI-Erfahrung für den Massenmarkt war Konversation. Der nächste Schritt könnte die Delegation sein. Danach kann es sich um eine Simulation handeln: Agenten, die in Umgebungen arbeiten, die sie verstehen, modellieren und ändern können.
Das ist die wahre Bedeutung des Moments, den HumanX eingefangen hat. Die nächste Phase der KI besteht nicht nur aus intelligenteren Antworten. Es sind Systeme, die im Kontext agieren, tiefgreifend wahrnehmen und schließlich über die Welt nachdenken können, die sie verändern sollen.





