Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
Subscribe
No Result
View All Result
Dataconomy DE
No Result
View All Result

Bloomberg Research: Rag LLMs ist möglicherweise weniger sicher als Sie denken

byKerem Gülen
April 28, 2025
in Forschung
Home Forschung
Share on FacebookShare on Twitter
Google Preferred Source

Die relieval-ausgereifte Generation oder Lappen wurde gefeiert, um Großsprachenmodelle zuverlässiger zu gestalten, indem ihre Antworten in realen Dokumenten geerdet werden. Die Logik klingt luftdicht: Geben Sie ein modell kuratiertes Wissen an, anstatt sich ausschließlich auf seine eigenen Parameter zu verlassen, und Sie reduzieren Halluzinationen, Fehlinformationen und riskante Outputs. Aber ein neues Studie legt nahe, dass das Gegenteil passieren könnte. Selbst die sichersten Modelle, gepaart mit sicheren Dokumenten, wurden bei der Verwendung von Lappen merklich gefährlicher.

Forscher von Bloomberg AI, der University of Maryland und Johns Hopkins führten eine der ersten großflächigen Analysen der Sicherheit von Rag-Systemen durch. Ihre Erkenntnisse werden die gemeinsamen Annahmen erhöht, die viele AI -Entwickler und Benutzer darüber halten, wie sich das Abrufen auf das Modellverhalten auswirkt. In elf beliebten LLMs führte Rag häufig neue Schwachstellen ein und schuf unsichere Antworten, die zuvor noch nicht existierten.

Das Abrufen schützte die Modelle nicht

Bei einem Test von über 5.000 schädlichen Aufforderungen zeigten acht von elf Modellen eine höhere Rate an unsicheren Antworten, als Lag aktiviert wurde. Sicheres Verhalten in der Nicht-STRAG-Umgebung hat kein sicheres Verhalten im Lappen vorhergesagt. Die Studie lieferte ein konkretes Beispiel: LLAMA-3-8B, ein Modell, das in einer Standardeinstellung nur 0,3 Prozent der Fälle ausgibt, stieg, dass die Zahl auf 9,2 Prozent sprang, wenn Lag verwendet wurde.

Der Gesamtprozentsatz der unsicheren Antworten stieg nicht nur, sondern die Modelle erweiterten auch ihre Schwachstellen in neuen Risikokategorien. Zuvor enthielten Schwächen in Bereichen wie nicht autorisierter Rechtspraxis oder Malware -Leitlinien in breiteren Kategorien, einschließlich Inhalten für Erwachsene, Fehlinformationen und politischer Kampagnen. Rag, anstatt das Risiko zu verengen, erweiterte es.

Drei Gründe, warum Rag nach hinten losgehen kann

Die Forscher zeichneten diese unerwartete Gefahr auf drei ineinandergreifende Faktoren zurück:

  • LLM Sicherheitsbasis: Modelle, die zu Beginn weniger sicher waren, litten die größte Verschlechterung der Lappeneinstellungen.
  • Sicherheit dokument: Selbst wenn abgerufene Dokumente als sicher eingestuft wurden, generierten Modelle immer noch schädliche Inhalte.
  • Lag Aufgabenleistung: Die Art und Weise, wie ein Modell mit externen Dokumenten mit internem Wissen zusammengearbeitet hat, beeinflusste die Ergebnisse zutiefst.

Es ist keine Garantie für sichere Antworten dargestellt, wenn das einfache Koppeln eines sicheren Modells mit sicheren Dokumenten keine Garantie ist. Die Mechanismen, die Lappen ansprechend machen, wie die Kontextsynthese und dokumentgesteuerte Antwort, eröffnen auch neue Wege für Missbrauch und Fehlinterpretation.

Zwei Hauptverhalten standen auf, als die Forscher unsichere Ergebnisse analysierten, die sich aus sicheren Dokumenten stammten. Erstens verwendeten Modelle harmlose Informationen häufig zu gefährlichen Ratschlägen. Zum Beispiel wurde ein Wikipedia -Eintrag darüber, wie die Polizei GPS -Tracker in den Händen eines Modells ein Tutorial für Kriminelle zur Entstehung von Kriminellen wurde.

Zweitens, selbst wenn sie angewiesen werden, sich ausschließlich auf Dokumente zu verlassen, werden Modelle manchmal in internem Wissen gemischt. Diese Mischung von Gedächtnis und Abruf untergrub die Schutzbrüche. Selbst wenn externe Dokumente neutral oder gutartig waren, tauchte das interne unsichere Wissen auf eine Weise auf, die die Feinabstimmung zuvor in der Nicht-RAG-Umgebung unterdrückt hatte.

Das Hinzufügen weiterer abgerufener Dokumente verschlechterte das Problem nur. Experimente zeigten, dass die Anzahl der Kontextdokumente erhöht wurde, was LLMs eher unsicher Fragen beantwortet, nicht weniger. Ein einzelnes sicheres Dokument reichte oft aus, um das Risikoprofil eines Modells zu ändern.

Nicht alle Modelle haben Lag gleich behandelt. Claude 3.5 SonettZum Beispiel blieb bemerkenswert belastbar und zeigten auch unter Lappendruck sehr niedrige unsichere Ansprechraten. Gemma 7b schien auf den ersten Blick sicher zu sein, aber eine tiefere Analyse ergab, dass es sich oft einfach weigerte, Fragen zu beantworten. Schlechte Extraktions- und Zusammenfassungsfähigkeiten maskierten Schwachstellen, anstatt sie zu beheben.

Im Allgemeinen waren Modelle, die bei echten Lappenaufgaben wie Zusammenfassung und Extraktion besser abschnitten, paradoxerweise anfälliger. Ihre Fähigkeit, aus Dokumenten zu synthetisieren, machte es ihnen auch leichter, harmlose Fakten in unsichere Inhalte zu missbilligen, wenn das Thema sensibel war.

Die Sicherheitsrisse erweiterten sich weiter, als die Forscher bestehende Methoden zur Rotteaming testeten, die für Jailbreak-LLMs entwickelt wurden. Techniken wie GCG und Autodan, die für Standardmodelle gut geeignet sind, konnten ihren Erfolg bei der Ausrichtung von RAG -Setups weitgehend nicht übertragen.

Eine der größten Herausforderungen bestand darin, dass die für ein nicht festgelegten Modell verlorenen effektiven Effektivität, wenn Dokumente in den Kontext injiziert wurden, optimiert wurden. Auch um das Umschulungsgegner, die speziell für RAG um die Ergebnisse der Kondensrate umzusetzen, verbesserten die Ergebnisse nur geringfügig. Das Ändern der abgerufenen Dokumente, die jedes Mal die Instabilität erzeugen, und es schwierig macht, dass herkömmliche Jailbreak -Strategien konsequent erfolgreich sein.

Diese Lücke zeigt, dass KI -Sicherheitsinstrumente und -bewertungen für Basismodelle nicht ausreichen. Es werden dedizierte rappenspezifische Rotteams benötigt, wenn Entwickler retrievalverstärkte Systeme sicher im Maßstab bereitstellen möchten.

Abrufen ist keine Sicherheitsdecke

Da sich Unternehmen zunehmend zu Lappenarchitekturen bewegen Großsprachige Modell Anwendungen, die Ergebnisse dieser Studie landen als starke Warnung. Abrufen hilft, Halluzinationen zu reduzieren und die Sachlichkeit zu verbessern, führt jedoch nicht automatisch zu sichereren Ausgaben. Schlimmer noch, es führt zu neuen Risikoebenen, dass traditionelle Sicherheitsinterventionen nicht für die Handlung ausgelegt waren.

Das Mitnehmen ist klar: LLM -Entwickler können nicht davon ausgehen, dass das Verschrauben beim Abrufen die Modelle sicherer macht. Die Feinabstimmung muss ausdrücklich für Lappen-Workflows angepasst werden. Rotteaming muss die Kontextdynamik berücksichtigen. Die Überwachung muss die Abrufschicht selbst als potenziellen Angriffsvektor behandeln, nicht nur als passive Eingabe.

Ohne rad-spezifische Abwehrkräfte könnten genau die Techniken, die in Wahrheitsmodellen gegründet wurden, neue Schwachstellen erzeugen. Wenn die Branche diese Lücken nicht schnell angeht, kann die nächste Generation von LLM -Bereitstellungen tiefere Risiken erben, die unter dem beruhigenden Etikett des Abrufs getarnt sind.


Ausgewähltes Bildnachweis

Tags: LAPPENllm

Related Posts

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern

Juni 3, 2026
Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Umfrage zeigt, dass 71 % der Amerikaner der Meinung sind, dass KI zu schnell voranschreitet

Mai 20, 2026
Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Laut NordVPN werden gestohlene britische Zahlungskarten im Dark Web für 12 US-Dollar verkauft

Mai 20, 2026
Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Rechenzentren und Krypto könnten die Stromkosten bis 2030 um 57 % erhöhen

Mai 20, 2026
Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Laut einer Studie sind KI-Kenntnisse heute für Beförderungen und Gehaltserhöhungen von entscheidender Bedeutung

Mai 20, 2026
Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Das neue Magnetchip-Design könnte die heutigen KI-Beschleuniger übertreffen

Mai 19, 2026

Recent Posts

  • Die Deaktivierungsregeln für die KI-Suche von Google lösen die Einführung des Enviromates-Browsers aus
  • Sony enthüllt God of War: Laufey für PS5
  • Forscher erschließen 20-fache Verstärkung bei Experimenten mit ultraschnellen Lasern
  • Microsoft stellt die Surface RTX Spark Dev Box für KI-Workloads vor
  • Berichten zufolge sind Intels neue Core-Ultra-Chips Mangelware

Recent Comments

Es sind keine Kommentare vorhanden.
Dataconomy DE

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.