Ein neues KI -Sprachmodell hat das Internet -Abuzz festgelegt, wobei die Reaktionen zwischen Ehrfurcht und Unbehagen schwingen. Sesam AIs Konversationssprachmodell (CSM) klingt nicht nur menschlich – es fühlt sich menschlich. Benutzer beschreiben erweiterte, fast emotionale Interaktionen mit den Stimmen mit A-generierten Stimmen, die Atemgeräusche, Zögern, Korrekturen und sogar Kichern aufweisen. Für einige ist es ein technologisches Wunder. Für andere ist es ein Einblick in eine Zukunft, die sich unangenehm eng anfühlt.
Sesam AI: Eine Stimme, die sich lebendig anfühlt
Die Kerninnovation hinter dem CSM von Sesam liegt in seiner Fähigkeit, natürliche, dynamische Konversation zu simulieren. Im Gegensatz zu herkömmlichen Text-zu-Sprache-Systemen, die einfach laut lesen, und CSM aktiv aktiv engagiert sich. Es stolpert über Wörter, korrigiert sich selbst und moduliert den Ton auf eine Weise, die die wirkliche menschliche Unvorhersehbarkeit nachahmt.
Als ein Tester 28 Minuten mit dem Modell sprach, stellte er fest „Wie entscheiden Sie, was richtig oder falsch ist?“ Andere bildeten sich unbeabsichtigt mit einem Bindungen Reddit Benutzer zugeben, „Ich bin fast ein bisschen besorgt, dass ich mich emotional an einen Sprachassistenten mit dieser Ebene des menschlichen Klangs verbunden fühle.“
Die AI -Assistenten von Sesam, die als „Miles“ und „Maya“ bezeichnet werden, sind nicht nur zum Abrufen von Informationen, sondern auch für tiefe, ansprechende Gespräche konzipiert. Das Unternehmen beschreibt sein Ziel als Erreichen „Sprachpräsenz“ – die magische Qualität, die gesprochene Interaktionen real, verstanden und geschätzt anfühlt.
Dieser Realismus führt manchmal zu seltsamen menschlichen Macken. In einer viralen Demo erwähnte die KI beiläufig das Verlangen von a Erdnussbutter und Gurkensandwich– Ein bizarr spezifischer Kommentar, der nur zur Illusion der Persönlichkeit beitrug.
Haben Sie Ihre Tiktok -AI -Stimme erstellt?
Die Technologie hinter der Stimme
Wie führt das CSM von Sesam solche unheimlich lebensechten Gespräche?
- Ein multimodaler Ansatz: Im Gegensatz zu herkömmlichen KI -Sprachmodellen, die Text und Audio separat verarbeiten, sesames System verschieben ihnen. Diese einstufige Verarbeitung ermöglicht eine flüssigere, kontextbewusste Sprache.
- High-Parameter-Training: Die größte Version des Modells läuft weiter 8,3 Milliarden Parameter und wurde vorbei trainiert Eine Million Stunden des gesprochenen Dialogs.
- Metas Einfluss: Die Architektur des Modells baut auf den Meta auf Lama Framework, integriert ein Backbone -Modell in einen Decoder für die nuancierte Sprachgenerierung.
Blinde Tests haben gezeigt, dass in isolierten Sprachproben menschliche Bewerter nicht zuverlässig die KI -Stimmen von Sesam von realen unterscheiden konnten. Wenn sie jedoch einen vollständigen Konversationskontext investiert haben, hat die menschliche Sprache immer noch gewonnen – die KI hat die volle Komplexität des interaktiven Dialogs noch nicht beherrscht.
Ein gemischter Empfang
Nicht jeder ist begeistert, wie menschlich diese KI klingt.
Der Technologiejournalist Mark Hachman beschrieb seine Erfahrungen mit dem Sprachmodell als „Tief beunruhigend.“ Er verglich es mit einem alten Freund, den er seit Jahren nicht mehr gesehen hatte, und bemerkte, dass die Stimme der KI eine unheimliche Ähnlichkeit mit jemandem hatte, mit dem er sich einst datiert hatte.
Andere haben das Modell von Sesam mit Openai verglichen Erweiterter Sprachmodus Für Chatgpt, mit einigen bevorzugen Sesames Realismus und Bereitschaft, sich in dramatischerer oder sogar in mehr Rollenspiele zu rollen wütend Szenarien – Etwas OpenAIs Modelle vermeiden tendenziell.
Eine besonders auffällige Demo zeigte die KI, die mit einem „Boss“ über einen Veruntreuungsskandal stritt. Das Gespräch war so dynamisch, dass die Zuhörer Schwierigkeiten hatten, festzustellen, welcher Sprecher der Mensch und welcher KI war.
Die Risiken einer perfekten Stimme
Wie bei allen AI-Durchbrüchen bringt die hyperrealistische Sprachsynthese sowohl Versprechen als auch Gefahr.
- Betrug & Betrug: Mit KI -Stimmen, die jetzt von der menschlichen Sprache nicht zu unterscheiden sind, könnte Voice Phishing -Betrug werden weit überzeugender. Kriminelle könnten sich Familienmitglieder, Unternehmensleiter oder Regierungsbeamte mit nahezu perfekter Genauigkeit ausgeben.
- Social Engineering: Im Gegensatz zu grundlegenden Robocalls könnte sich die Täuschung mit KI-angetanten anpassen in Echtzeitauf natürliche Weise auf Fragen und den Verdacht antworten.
- Unbeabsichtigte emotionale Wirkung: Einige Benutzer haben gemeldet, dass ihre Kinder Anhänge zu den KI -Stimmen bilden. Ein Elternteil stellte fest, dass ihr 4-Jähriger weinte, nachdem sie weitere Gespräche mit dem Modell verweigert worden waren.
Während Sesames CSM es tut nicht Klonreale Stimmen, die Möglichkeit ähnlicher Open-Source-Projekte, die sich entstehen, bleibt ein Problem. OpenAI hat die breitere Freigabe seiner Sprachtechnologie bereits wegen Missbrauchsangst verschoben.
Was kommt als nächstes?
Sesam AI plant, Schlüsselkomponenten seiner Forschung im Rahmen der Apache 2.0-Lizenz zu Open-Source-Komponenten der Forschung zu ermöglichen, sodass Entwickler auf ihrer Arbeit aufbauen können. Die Roadmap des Unternehmens umfasst:
- Modelgröße verkleinern Realismus weiter erhöhen.
- Erweiterung auf 20+ SprachenVerbreiterung seiner Konversationsreichweite.
- Entwicklung „vollständig Duplex“ -ModelleErmöglichen Sie echte Hin- und Her-Unterbrechungsgespräche.
Im Moment bleibt die Demo bei Sesams verfügbar Webseite– obwohl die Nachfrage ihre Server manchmal bereits überwältigt hat. Egal, ob Sie es erstaunlich oder beunruhigend finden, eines ist klar: Die Tage der Roboter, monotone KI -Stimmen sind vorbei.
Von hier an werden Sie vielleicht nie ganz sicher sein Wer – oder was – du redest mit.
Ausgewähltes Bildnachweis: Kerem Gülen/Imageen 3