Apple baut ein KI-„Engineering-Team“ auf, das Fehler selbst findet und behebt

Die KI-Forscher von Apple haben in aller Stille drei neue Studien veröffentlicht, die den Vorhang für ein großes neues Ziel lüften: die Automatisierung der mühsamsten und kritischsten Teile der Softwareentwicklung. Die auf Apples Blog „Machine Learning Research“ veröffentlichten Artikel beschreiben detailliert neue KI-Systeme, die vorhersagen können, wo Fehler wahrscheinlich auftreten, automatisch ganze Testpläne schreiben und sogar den fehlerhaften Code selbst reparieren können. Dies ist wichtig, da es sich nicht nur um eine weitere „KI schreibt Code“-Demo handelt. Apple baut eine Reihe spezialisierter KI-Qualitätsingenieure auf, um Fehler zu finden und zu beheben, bevor sie Ihr Telefon oder Ihren Computer erreichen, was zu massiven Produktivitätssteigerungen und (hoffentlich) stabilerer Software führen könnte.

Papier 1: Der KI-Bug-Prädiktor

Die erste Studie, „Vorhersage von Softwarefehlern mithilfe des Autoencoder-Transformer-Modells,“ von Forschern Seshu Barma, Mohanakrishnan Hariharan und Satish Arvapalligeht das Problem von „fehlerhaftem“ Code an. Anstatt eine KI Millionen von Codezeilen lesen zu lassen – ein Prozess, der zu KI-„Halluzinationen“ neigt – haben sie ein anderes Tool entwickelt. Ihr Modell, ADE-QVAETverhält sich weniger wie ein Code-Reviewer, sondern eher wie ein Datenanalyst. Der Code selbst wird nicht gelesen. Stattdessen wird analysiert Metriken zum Codewie etwa seine Komplexität, Größe und Struktur. Es ist darauf trainiert, die versteckten Muster in diesen Metriken zu finden, die zuverlässig vorhersagen, wo sich Fehler am wahrscheinlichsten verstecken. Die Ergebnisse sind unglaublich effektiv. Das Modell erreichte einen Standarddatensatz zur Fehlervorhersage 98,08 % Genauigkeit. Es punktete außerdem mit hoher Präzision und Wiedererkennungswert, eine technische Ausdrucksweise, mit der man sagen kann, dass es extrem gut darin ist, echte Fehler zu finden und gleichzeitig „False Positives“ zu vermeiden, die die Zeit der Entwickler verschwenden.

Papier 2: Der automatisierte Qualitätsingenieur

Das Finden von Fehlern ist großartig, aber was ist mit dem Berg an Papierkram, der mit dem Testen von Software einhergeht? Die zweite Studie, „Agentisches RAG für Softwaretests,“ geht dieses Thema direkt an. Die Forscher stellen fest, dass Qualitätsingenieure Geld ausgeben 30-40 % ihrer Zeit einfach „grundlegende Testartefakte“ erstellen – ein Sammelbegriff für Testpläne, Fälle und Skripte. Ihre Lösung ist ein KI-Agent, der diese Arbeit automatisch erledigt. Das System liest die Anforderungen und die Geschäftslogik des Projekts und generiert dann selbstständig die gesamte Suite von Testdokumenten. Dieses System gewährleistet eine vollständige „Nachverfolgbarkeit“, d. h. es protokolliert genau, welcher Testfall welcher Geschäftsanforderung entspricht. Die Wirkung wird hier in Zeit und Geld gemessen. Das System zeigte eine bemerkenswerte Leistung 94,8 % Genauigkeit in seinen generierten Tests. In Validierungsprojekten führte es zu einem 85 % Reduzierung des Testzeitraums und ein 85 % Verbesserung der Testsuite-Effizienz. Bei einem Projekt bedeutete das eine Beschleunigung des Go-Live-Termins um ganze zwei Monate.

MIT-Forscher haben eine KI entwickelt, die sich das Lernen selbst beibringt

Papier 3: Das KI-„Fitnessstudio“, das Code-Fixierung lehrt

Die dritte und ehrgeizigste Studie ist „Schulung von Software-Engineering-Agenten und Prüfern mit SWE-Gym.“ Dieses Papier stellt die logische nächste Frage: Warum einfach Fehler finden, wenn man sie beheben kann? Zu diesem Zweck baute das Team ein „Fitnessstudio“ für KI-Agenten. Diese Trainingsumgebung, SWE-Fitnessstudioist eine Sandbox, aus der gebaut wurde 2.438 reale Python-Aufgaben entnommen aus 11 Open-Source-Projekten. Jede Aufgabe verfügt über eine eigene ausführbare Umgebung und Testsuite. Dadurch kann ein KI-Agent den gesamten Entwickler-Workflow üben: den Fehlerbericht lesen, den Code schreiben, um ihn zu beheben, und dann die Tests ausführen, um zu sehen, ob der Fix tatsächlich funktioniert hat (und nichts anderes kaputt gemacht hat). Die Ausbildung hat sich gelohnt. In diesem „Fitnessstudio“ trainierte KI-Agenten 72,5 % der fehlerhaften Aufgaben richtig gelöstein Ergebnis, das frühere Benchmarks um mehr als 20 Prozentpunkte übertraf. Hierbei handelt es sich um spezielle Tools, nicht um einen Allzweck-KI-Programmierer. Die Forscher für die automatisierten Tests (Papier 2) stellen fest, dass sich ihre Arbeit nur auf bestimmte „Mitarbeitersysteme, Finanzen und SAP-Umgebungen“ konzentrierte, was bedeutet, dass es sich noch nicht um eine Einheitslösung handelt. Ebenso konzentrierte sich das Fehlerbehebungs-„Fitnessstudio“ auf Python-Aufgaben. Was diese drei Studien zeigen, ist eine klare, vielschichtige Strategie. Apple versucht nicht nur, eine „Alleskönner“-KI zu entwickeln. Stattdessen bauen sie ein Team von KI-Spezialisten auf: einen Fehlervorhersage-Analysten, einen Tests schreibenden „Papierschieber“ und einen Fehlerbehebungs-„Mechaniker“. Dieser Ansatz könnte die Wirtschaftlichkeit der Softwareentwicklung grundlegend verändern und zu schnelleren Zeitplänen, geringeren Kosten und zuverlässigeren Produkten führen.

Hervorgehobener Bildnachweis