Openai’s GPT-4.5 übertroffen Menschen in einem kürzlichen Turing-Test von UC San Diego, die zeigen, wie leicht Menschen KI für echte Gespräche verwechseln können, indem sie nebeneinander Chats eingehen.
Der Turing-Test hat lange Zeit gemessen, ob eine Maschine durch textbasierte Interaktion als menschlich bestehen kann. In dieser aktualisierten Version unterhielten sich fast 300 Teilnehmer aus der Sprache und Kognitionslabor von UC San Diego jeweils mit einem Menschen und einer KI, bevor sie entschieden, welches dies war.
GPT-4,5, ausgestattet mit einer Popkultur-Persona, überzeugte die Teilnehmer, dass es in 73 Prozent der Fälle menschlich war-oder über dem 50-prozentigen Benchmark, der historisch zur Definition eines PASS verwendet wurde. Tatsächliche Menschen täuschten die Teilnehmer nicht so oft.
Weitere Systeme waren Metas Lama 3, Openai’s GPT-4O und Eliza, einer der frühesten Chatbots. Ohne eine definierte Persona fiel die Erfolgsquote von GPT-4,5 auf 36 Prozent und GPT-4O erzielte nur 21 Prozent.
Forscher stellen fest, dass das Absetzen des Turing -Tests nicht bedeutet, dass eine KI die Sprache wie eine Person wirklich versteht. Die Ergebnisse unterstreichen jedoch, wie überzeugend diese Modelle die menschliche Konversation nachahmen können, insbesondere wenn sie spezifische Rollen übernehmen. Die Ergebnisse werden derzeit auf einem Präprint-Server veröffentlicht, wobei eine von Experten begutachtete Version ausstehend ist.