Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Dieser Benchmark fragt, ob KI wie ein Ingenieur denken kann

byKerem Gülen
April 9, 2025
in Research
Home Research

Laut einer neuen Studie mit dem Titel “ “Feubech: Bewertung von Sprachmodellen zur Fähigkeit zur Multiphysik -Argumentation” Von Forschern von Google und Harvard können große Sprachmodelle über ein großes Spiel sprechen-aber wenn es um echtes Engineering geht, können die meisten nicht einmal eine Wärmesimulation korrekt durchführen.

Dieser neue Benchmark, genannt FeubenchTestmodelle nicht zu Problemen mit Codegenerierung oder Lehrbuchphysik. Es fordert sie auf, komplexe, simulationsbasierte technische Aufgaben zu lösen Comsol -Multiphysikeine FEA-Plattform (Professional-Grade-Finite-Elemente-Analyse). Mit anderen Worten, es wird gefragt: Kann Ihr bevorzugter KI -Assistent einen virtuellen Strahl aufbauen, die richtige Physik anwenden und tatsächlich berechnen, was als nächstes passiert?

Warum Simulation Spitballing schlägt

Bei FEA geht es nicht um Annäherungen. Es geht darum, die physische Realität in numerische Präzision zu übersetzen – zu verarbeiten, wie sich die Wärme in einem Halbleiter ausbreitet, wie sich ein Strahl unter Druck biegt, wie sich das Materialversagen ausbreitet. Dies sind Fragen, die den Erfolg oder Katastrophen von Engineering definieren. Im Gegensatz zu generischen Benchmarks erhöht FeAbench die Messlatte: Es erfordert AI-Modelle Vernunft durch Multi-Domänen-Physik und betreibt Simulationstools für professionelle Qualität, um Probleme tatsächlich zu lösen.

Dieser Benchmark fragt, ob KI wie ein Ingenieur denken kann
Screenshot aus der gemeinsamen Studie entnommen

Benchmarking das Unbenchmarkable

FeAbench füllt eine Lücke, die die bestehenden KI -Benchmarks vermissen. Frühere Arbeiten haben die Leistung in der symbolischen Mathematik- oder Codegenerierung weitgehend gemessen, aber die simulationsbasierte Wissenschaft benötigt mehr als Syntax. Es braucht semantisches Verständnis der räumlichen Geometrie, materiellen Wechselwirkungen und numerischen Solvers. FEABENCH DAS TUN, DASS ANGEBETTE, WIRD, WIRD LLMS ENTWORTE ANGEBÄUDE IPI -API -API -COMSICS -COMSOL -Multiphysics® -API -Aufrufe erzeugen und das richtige Ergebnis berechnen.

Der Benchmark gibt es in zwei Ebenen. GOLD Enthält 15 akribisch verifizierte Probleme mit sauberen Eingängen, klar definierten Zielen und korrekten Ausgangswerten – jeder über die Java -API von Comsol lösbar. Diese umfassen Physikdomänen von der Wärmeübertragung auf die Quantenmechanik. Dann gibt es Feubench groß: Ein Satz von 200 algorithmisch analysierten Tutorials, die eine breitere Codegenerierung testen, aber die strenge Grundwahrheit fehlt. Goldtests Präzision; Große Tests Breite.

Um diese Aufgaben anzugehen, bauten die Forscher eine vollständige agierende Pipeline. A Controlleragent überwacht den Prozess. A Correctorsubagent Iterativ verfeinert Code basierend auf Ausführungsfehlern. A Toolleookupagent Ruft Physics Dokumentation oder kommentierte Code -Snippets ab, um zu helfen. Der Bewerter Verwendet sowohl API -Feedback als auch ein Verifierllm, um zu beurteilen, ob die Lösung sinnvoll ist. Dieses System führt nicht nur One-Shot-Eingabeaufforderungen aus, sondern navigiert, korrigiert und lernt von Fehlern.

Dieser Benchmark fragt, ob KI wie ein Ingenieur denken kann
Screenshot aus der gemeinsamen Studie entnommen

Gewichtsgewichte gewinnen, aber trotzdem schwitzen

In Basisversuche übertrafen Modelle für geschlossene Quellen wie Claude 3.5, GPT-4O und Gemini 1.5 Open-Gewicht-Modelle. Claude 3.5 leitete das Paket, erreichte 79% der Ausführbarkeit und erzielte das einzige gültige Ziel für ein Goldproblem. Offene Modelle kämpften mit einigen halluzinierenden physikalischen Schnittstellen oder Fehlanpassungsmerkmalen. Der schwierigste Teil? Der Physikblockwo Modelle mussten, um genaue Randbedingungen und physikalische Eigenschaften anzuwenden, um Ergebnisse zu erzielen, die mit der Grundwahrheit übereinstimmten.

  • Claude 3.5 Sonett: 0,79 Ausführbarkeit, 1/15 gültiges Ziel
  • Gpt-4o: 0,78 Ausführbarkeit, 0/15 gültiges Ziel
  • Gemini-1.5-pro: 0,60 Ausführbarkeit, 0/15 gültiges Ziel

Wenn ein Plan nicht genug ist

Der Benchmark enthält zwei Aufgabenarten. Im Models Aufgabe, der LLM erhält nur die technischen Spezifikationen und muss eine Lösung ausgeben. Im Planen Aufgabe, das Modell erhält schrittweise Anweisungen. Überraschenderweise führte die Planaufgabe nicht zu einer besseren Leistung. Modelle scheiterten oft, indem sie Anweisungen zu wörtlich annehmen und falsche API -Namen halluzinieren. Das Hinzufügen einer Liste gültiger COMSOL -Funktionen zur Eingabeaufforderung wurde als das Hinzufügen der Eingabeaufforderung angerufen, die die Phydoc In-Context Strategie – Halluzinationen reduzieren und eine verbesserte Sachlichkeit der Schnittstelle erheblich reduzieren.

Dieser Benchmark fragt, ob KI wie ein Ingenieur denken kann
Screenshot aus der gemeinsamen Studie entnommen

Lektionen für KI -Ingenieure

Ein großes Imbiss: Übersetzung ist schwieriger als die Planung. Selbst wenn das Modell weiß, was zu tun ist, ist es die Straßensperre, es in Comsols DSL (domänenspezifische Sprache) auszudrücken. Die Lösung des Teams? Geben Sie Erdungswerkzeuge wie kommentierte Code-Bibliotheken und In-Kontext-Dokumentation an und kombinieren Sie diese mit strukturierten agierischen Workflows. Dieses Rezept verwandelte eine schlechte One-Shot-Leistung in eine robuste Verbesserung der Mehrheit. In der Tat erreichte die Strategie mit mehreren Turn-Agenten-Strategien 88% Ausführbarkeitder höchste aller Experimente.

  • Modellespecs + Multi-Turn-Agent: 0,88 Ausführbarkeit, 2/15 gültige Ziele
  • Modellespecs + phydoc: 0,62 Ausführbarkeit, 1/15 gültige Ziele

Simulationen sind, wie Ingenieure Zeit und Risiko komprimieren. FeAbench zeigt, dass LLMs nicht bereit sind, Simulationen unbeaufsichtigt auszuführen, aber sie werden nützliche Kopiloten nahe. Das ist wichtig, wenn wir möchten, dass KI bei schnellem Prototyping, wissenschaftlicher Entdeckung oder strukturellem Design hilft. Und wenn KI lernen kann, die physische Welt so genau wie sie die Sprache nachahmt, wird sie nicht nur chatten – es wird eines Tages simulieren, lösen und vielleicht sogar eines Tages erfinden.


Ausgewähltes Bildnachweis

Tags: AiFabenchVorgestellt

Related Posts

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

KI -Forschungsinstrumente führen möglicherweise mehr Probleme als sie lösen

Mai 14, 2025
Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Ist Ihr super hilfreicher generativer KI -Partner heimlich Ihre Arbeit langweilig?

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Mai 14, 2025
Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Apple Research Paper enthüllt Matrix3d ​​für die Erzeugung von 3D -Inhalten

Mai 14, 2025
Microsofts Adele möchte Ihrer KI ein kognitives Profil geben

Microsofts Adele möchte Ihrer KI ein C -kognitiver Profil geben

Mai 14, 2025
Forschung: Der Goldstandard für die Genai -Bewertung

Forschung: Der Goldstandard für die Genai -Bewertung

Mai 12, 2025

Recent Posts

  • Databricks -Wetten auf serverlose Postgres mit seiner Akquisition von 1 Milliarde US -Dollar
  • Alphaevolve: Wie Googles neue KI mit Selbstkorrektur auf die Wahrheit strebt
  • TIKTOK implementiert AI-generierte ALT-Texte, um eine bessere Akzierbarkeit zu erhalten
  • Trump zwingt Apple, seine indische iPhone -Strategie in Indien zu überdenken
  • Die KI von YouTube weiß jetzt, wann Sie kurz vor dem Kauf sind

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.