Bloomberg Research: Rag LLMs ist möglicherweise weniger sicher als Sie denken

Die relieval-ausgereifte Generation oder Lappen wurde gefeiert, um Großsprachenmodelle zuverlässiger zu gestalten, indem ihre Antworten in realen Dokumenten geerdet werden. Die Logik klingt luftdicht: Geben Sie ein modell kuratiertes Wissen an, anstatt sich ausschließlich auf seine eigenen Parameter zu verlassen, und Sie reduzieren Halluzinationen, Fehlinformationen und riskante Outputs. Aber ein neues Studie legt nahe, dass das Gegenteil passieren könnte. Selbst die sichersten Modelle, gepaart mit sicheren Dokumenten, wurden bei der Verwendung von Lappen merklich gefährlicher.

Forscher von Bloomberg AI, der University of Maryland und Johns Hopkins führten eine der ersten großflächigen Analysen der Sicherheit von Rag-Systemen durch. Ihre Erkenntnisse werden die gemeinsamen Annahmen erhöht, die viele AI -Entwickler und Benutzer darüber halten, wie sich das Abrufen auf das Modellverhalten auswirkt. In elf beliebten LLMs führte Rag häufig neue Schwachstellen ein und schuf unsichere Antworten, die zuvor noch nicht existierten.

Das Abrufen schützte die Modelle nicht

Bei einem Test von über 5.000 schädlichen Aufforderungen zeigten acht von elf Modellen eine höhere Rate an unsicheren Antworten, als Lag aktiviert wurde. Sicheres Verhalten in der Nicht-STRAG-Umgebung hat kein sicheres Verhalten im Lappen vorhergesagt. Die Studie lieferte ein konkretes Beispiel: LLAMA-3-8B, ein Modell, das in einer Standardeinstellung nur 0,3 Prozent der Fälle ausgibt, stieg, dass die Zahl auf 9,2 Prozent sprang, wenn Lag verwendet wurde.

Der Gesamtprozentsatz der unsicheren Antworten stieg nicht nur, sondern die Modelle erweiterten auch ihre Schwachstellen in neuen Risikokategorien. Zuvor enthielten Schwächen in Bereichen wie nicht autorisierter Rechtspraxis oder Malware -Leitlinien in breiteren Kategorien, einschließlich Inhalten für Erwachsene, Fehlinformationen und politischer Kampagnen. Rag, anstatt das Risiko zu verengen, erweiterte es.

Drei Gründe, warum Rag nach hinten losgehen kann

Die Forscher zeichneten diese unerwartete Gefahr auf drei ineinandergreifende Faktoren zurück:

LLM Sicherheitsbasis: Modelle, die zu Beginn weniger sicher waren, litten die größte Verschlechterung der Lappeneinstellungen.
Sicherheit dokument: Selbst wenn abgerufene Dokumente als sicher eingestuft wurden, generierten Modelle immer noch schädliche Inhalte.
Lag Aufgabenleistung: Die Art und Weise, wie ein Modell mit externen Dokumenten mit internem Wissen zusammengearbeitet hat, beeinflusste die Ergebnisse zutiefst.

Es ist keine Garantie für sichere Antworten dargestellt, wenn das einfache Koppeln eines sicheren Modells mit sicheren Dokumenten keine Garantie ist. Die Mechanismen, die Lappen ansprechend machen, wie die Kontextsynthese und dokumentgesteuerte Antwort, eröffnen auch neue Wege für Missbrauch und Fehlinterpretation.

Zwei Hauptverhalten standen auf, als die Forscher unsichere Ergebnisse analysierten, die sich aus sicheren Dokumenten stammten. Erstens verwendeten Modelle harmlose Informationen häufig zu gefährlichen Ratschlägen. Zum Beispiel wurde ein Wikipedia -Eintrag darüber, wie die Polizei GPS -Tracker in den Händen eines Modells ein Tutorial für Kriminelle zur Entstehung von Kriminellen wurde.

Zweitens, selbst wenn sie angewiesen werden, sich ausschließlich auf Dokumente zu verlassen, werden Modelle manchmal in internem Wissen gemischt. Diese Mischung von Gedächtnis und Abruf untergrub die Schutzbrüche. Selbst wenn externe Dokumente neutral oder gutartig waren, tauchte das interne unsichere Wissen auf eine Weise auf, die die Feinabstimmung zuvor in der Nicht-RAG-Umgebung unterdrückt hatte.

Das Hinzufügen weiterer abgerufener Dokumente verschlechterte das Problem nur. Experimente zeigten, dass die Anzahl der Kontextdokumente erhöht wurde, was LLMs eher unsicher Fragen beantwortet, nicht weniger. Ein einzelnes sicheres Dokument reichte oft aus, um das Risikoprofil eines Modells zu ändern.

Nicht alle Modelle haben Lag gleich behandelt. Claude 3.5 SonettZum Beispiel blieb bemerkenswert belastbar und zeigten auch unter Lappendruck sehr niedrige unsichere Ansprechraten. Gemma 7b schien auf den ersten Blick sicher zu sein, aber eine tiefere Analyse ergab, dass es sich oft einfach weigerte, Fragen zu beantworten. Schlechte Extraktions- und Zusammenfassungsfähigkeiten maskierten Schwachstellen, anstatt sie zu beheben.

Im Allgemeinen waren Modelle, die bei echten Lappenaufgaben wie Zusammenfassung und Extraktion besser abschnitten, paradoxerweise anfälliger. Ihre Fähigkeit, aus Dokumenten zu synthetisieren, machte es ihnen auch leichter, harmlose Fakten in unsichere Inhalte zu missbilligen, wenn das Thema sensibel war.

Die Sicherheitsrisse erweiterten sich weiter, als die Forscher bestehende Methoden zur Rotteaming testeten, die für Jailbreak-LLMs entwickelt wurden. Techniken wie GCG und Autodan, die für Standardmodelle gut geeignet sind, konnten ihren Erfolg bei der Ausrichtung von RAG -Setups weitgehend nicht übertragen.

Eine der größten Herausforderungen bestand darin, dass die für ein nicht festgelegten Modell verlorenen effektiven Effektivität, wenn Dokumente in den Kontext injiziert wurden, optimiert wurden. Auch um das Umschulungsgegner, die speziell für RAG um die Ergebnisse der Kondensrate umzusetzen, verbesserten die Ergebnisse nur geringfügig. Das Ändern der abgerufenen Dokumente, die jedes Mal die Instabilität erzeugen, und es schwierig macht, dass herkömmliche Jailbreak -Strategien konsequent erfolgreich sein.

Diese Lücke zeigt, dass KI -Sicherheitsinstrumente und -bewertungen für Basismodelle nicht ausreichen. Es werden dedizierte rappenspezifische Rotteams benötigt, wenn Entwickler retrievalverstärkte Systeme sicher im Maßstab bereitstellen möchten.

Abrufen ist keine Sicherheitsdecke

Da sich Unternehmen zunehmend zu Lappenarchitekturen bewegen Großsprachige Modell Anwendungen, die Ergebnisse dieser Studie landen als starke Warnung. Abrufen hilft, Halluzinationen zu reduzieren und die Sachlichkeit zu verbessern, führt jedoch nicht automatisch zu sichereren Ausgaben. Schlimmer noch, es führt zu neuen Risikoebenen, dass traditionelle Sicherheitsinterventionen nicht für die Handlung ausgelegt waren.

Das Mitnehmen ist klar: LLM -Entwickler können nicht davon ausgehen, dass das Verschrauben beim Abrufen die Modelle sicherer macht. Die Feinabstimmung muss ausdrücklich für Lappen-Workflows angepasst werden. Rotteaming muss die Kontextdynamik berücksichtigen. Die Überwachung muss die Abrufschicht selbst als potenziellen Angriffsvektor behandeln, nicht nur als passive Eingabe.

Ohne rad-spezifische Abwehrkräfte könnten genau die Techniken, die in Wahrheitsmodellen gegründet wurden, neue Schwachstellen erzeugen. Wenn die Branche diese Lücken nicht schnell angeht, kann die nächste Generation von LLM -Bereitstellungen tiefere Risiken erben, die unter dem beruhigenden Etikett des Abrufs getarnt sind.

Ausgewähltes Bildnachweis