Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

AI Labs investieren in RL -Umgebungen für autonome Agenten

byAytun Çelebi
September 17, 2025
in Artificial Intelligence, Industry
Home Artificial Intelligence
Share on FacebookShare on Twitter

Silicon Valley -Investoren und große KI -Labors tätigen erhebliche Investitionen in Verstärkungslernumgebungen (RL), die simulierte Arbeitsbereiche sind, um KI -Agenten für die autonome Verwendung von Software auszubilden. Während KI-Agenten wie OpenAs Chatgpt-Agent vielversprechend gezeigt haben, haben sie immer noch mit komplexen, mehrstufigen Aufgaben zu kämpfen. Diese neue Investitionswelle konzentriert sich darauf, ausgefeilte Trainingsgründe zu schaffen, um diese Einschränkungen zu überwinden und über die statischen, gekennzeichneten Datensätze hinauszugehen, die die letzte Generation von KI betrieben haben.

Wie KI -Verstärkungslernumgebungen funktionieren

RL -Umgebungen sind virtuelle Trainingsgründe, in denen ein AI -Agent die Verwendung von Software in einer kontrollierten Umgebung üben kann. Der Agent erhält Feedback durch ein System von Belohnungen und Strafen, ähnlich wie ein Spiel. Beispielsweise würde ein Agent, der mit dem Kauf von Socken bei Amazon in einem simulierten Chrome -Browser beauftragt ist, eine positive Belohnung für die erfolgreiche Abschluss des Kaufs erhalten. Es würde eine Strafe für Fehler wie die Auswahl des falschen Elements oder die Navigation in einem Menü erhalten. Diese dynamischen Umgebungen sind weitaus komplexer als statische Datensätze. Sie müssen eine breite Palette unvorhersehbarer Agentenaktionen berücksichtigen und genaue Feedback geben, um die Verbesserung zu leiten. Das Konzept baut auf früheren KI -Forschungen auf, wie die von OpenAI 2016 entwickelten „RL -Fitnessstudios“ und das simulierte Board, mit dem DeepMind’s Alphago trainiert wurde. Die heutigen Umgebungen werden jedoch auf allgemeine Modelle für Transformatoren angewendet, um sie für offene Aufgaben wie Webnavigation und Dokumentbearbeitung zu trainieren.

Ein neues Ökosystem von Startups entsteht, um die Nachfrage zu befriedigen

Große KI-Labors wie OpenAI, Anthropic und Meta bauen ihre eigenen RL-Umgebungen auf, aber die Komplexität und das Ausmaß der Aufgabe haben eine Nachfrage nach Spezialisten von Drittanbietern geschaffen. Dies hat das Wachstum eines neuen Ökosystems von Startups angeheizt und etablierte Datenunternehmen zum Drehen veranlasst.

  • Arbeit mechanisierenEin neues Startup konzentriert sich auf die Erstellung einer kleinen Anzahl von High-Fidelity-Umgebungen für Aufgaben wie KI-Codierung. Das Unternehmen arbeitet Berichten zufolge mit Anthropic und bietet Gehälter bis zu 500.000 US -Dollar an, um erstklassige technische Talente anzulocken.
  • Prime -Intellekt zielt auf kleinere Entwickler mit einem Open-Source-Hub ab, das ein „umarmendes Gesicht für RL-Umgebungen“ nennt. Die Plattform bietet Zugriff auf vorgefertigte Simulationen und verkauft die Rechenressourcen, die für sie ausgeführt werden müssen.
  • AnstiegEin Datenmarkierungsunternehmen, das im vergangenen Jahr einen Umsatz von 1,2 Milliarden US-Dollar erzielt hat, hat eine neue interne Organisation geschaffen, die sich dem Aufbau von RL-Umgebungen widmet, um die steigende Nachfrage seiner Kunden zu befriedigen.
  • Mercor Entwickelt domänenspezifische Umgebungen für Bereiche wie Codierung, Gesundheitswesen und Recht, in denen Agenten auf simulierten Software für Aufgaben wie Überprüfung von Patientenakten oder rechtlichen Verträgen geschult werden können.
  • Scale aiEin ehemaliger Marktführer bei der Datenmarkierung passt auch durch die Entwicklung von RL -Umgebungen an, um nach dem Verlust von Schlüsselverträgen mit Google und OpenAI wettbewerbsfähig zu bleiben.

Herausforderungen und der Weg nach vorne

Trotz der starken Investitionen, einschließlich eines gemeldeten Planes von Anthropic, um mehr als 1 Milliarde US -Dollar für RL -Umgebungen zuzuweisen, bleiben erhebliche Herausforderungen bestehen. Ross Taylor, ein ehemaliger KI -Forschungsvorgang bei Meta, wies auf das Problem des „Belohnungs -Hacking“ hin, bei dem Agenten Lücken finden, um Belohnungen zu erhalten, ohne die beabsichtigte Aufgabe tatsächlich zu erledigen. Openais Sherwin Wu hat einen Mangel an speziellen Startups festgestellt, die die sich schnell entwickelnden Bedürfnisse der Top -Labors erfüllen können. Es gibt auch eine Debatte innerhalb der AI -Community über die effektivsten Trainingsmethoden.

Andrej Karpathyein Investor in Prime Intellekt, teilte eine nuancierte Sicht auf X.

„Ich bin optimistisch in Bezug auf Umgebungen und agierende Interaktionen, aber ich bin speziell für das Verstärkungslernen.“

Diese Perspektive unterstreicht die Begeisterung für die Verwendung von simulierten Umgebungen und erkennen gleichzeitig an, dass der beste Weg, Intelligenz aus ihnen herauszuholen, immer noch eine offene Frage ist. Dennoch werden diese Umgebungen als kritische Komponente bei der Entwicklung der nächsten Generation von fähigeren und autonomeren KI -Agenten angesehen, die jüngsten Durchbrüche wie Openai’s O1 und Anthropics Claude Opus 4 betreiben.


Ausgewähltes Bildnachweis

Tags: AiVorgestellt

Related Posts

Barret Zoph wird den aggressiven kommerziellen Pivot von OpenAI leiten

Barret Zoph wird den aggressiven kommerziellen Pivot von OpenAI leiten

Januar 23, 2026
LiveKit wird als Motor hinter dem Sprachmodus von ChatGPT mit einer Bewertung von 1 Milliarde US-Dollar bewertet

LiveKit wird als Motor hinter dem Sprachmodus von ChatGPT mit einer Bewertung von 1 Milliarde US-Dollar bewertet

Januar 23, 2026
Vimeo beginnt nach der Übernahme von Bending Spoons mit Personalentlassungen

Vimeo beginnt nach der Übernahme von Bending Spoons mit Personalentlassungen

Januar 23, 2026
AWS und Prime Video schlagen zu, während Amazon eine neue Entlassungswelle vorbereitet

AWS und Prime Video schlagen zu, während Amazon eine neue Entlassungswelle vorbereitet

Januar 23, 2026
JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

JBL bringt KI-betriebene BandBox-Verstärker auf den Markt

Januar 23, 2026
Oracle und Silver Lake führen die 14-Milliarden-Dollar-Rettung des TikTok-US-Geschäfts an

Oracle und Silver Lake führen die 14-Milliarden-Dollar-Rettung des TikTok-US-Geschäfts an

Januar 23, 2026

Recent Posts

  • Barret Zoph wird den aggressiven kommerziellen Pivot von OpenAI leiten
  • Substack geht mit dem Start der Beta-TV-App ins Wohnzimmer
  • LiveKit wird als Motor hinter dem Sprachmodus von ChatGPT mit einer Bewertung von 1 Milliarde US-Dollar bewertet
  • Vimeo beginnt nach der Übernahme von Bending Spoons mit Personalentlassungen
  • AWS und Prime Video schlagen zu, während Amazon eine neue Entlassungswelle vorbereitet

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.