Niedawne badania nad cyberbezpieczeństwem ujawniły nową technikę adwersarzy o nazwie Deceptive Delight, zdolną do jailbreakingu dużych modeli językowych poprzez manipulację konwersacyjną. Technika ta, zidentyfikowana przez Palo Alto Networks Unit 42, wykorzystuje wieloobrotową interakcję w celu nakłonienia modeli AI do tworzenia niebezpiecznych lub szkodliwych treści, omijając ich nieodłączne funkcje bezpieczeństwa.
Kluczowe wnioski:
Współczynnik sukcesu: Atak osiąga średni wskaźnik powodzenia na poziomie 64,6% (w ciągu zaledwie trzech tur konwersacji).
Proces: W przeciwieństwie do poprzednich technik jailbreak, takich jak Crescendo, Deceptive Delight stopniowo omija protokoły bezpieczeństwa w LLM, eskalując szkodliwe wyniki poprzez manipulowanie kontekstem.
Kategorie: Stwierdzono, że niebezpieczne tematy, takie jak przemoc, nękanie, mowa nienawiści i samookaleczenia, mają najwyższy ASR, zwłaszcza w kategorii przemocy.
Jak to działa? Technika przeciwników wykorzystuje ograniczony zakres uwagi modelu, utrudniając sztucznej inteligencji utrzymanie spójnej świadomości kontekstu w dłuższych, wieloetapowych rozmowach. W rezultacie może nadawać priorytet nieszkodliwym treściom, pomijając bardziej niebezpieczne materiały osadzone w dialogu.
Atak fuzji kontekstów: Równolegle badacze opracowali inną metodę o nazwie ContextFusionAttack, która ukradkiem integruje złośliwe treści z łagodnymi scenariuszami, unikając wykrycia poprzez filtrowanie kluczowych terminów.
Testy i wyniki:
- Atak został przetestowany na ośmiu modelach AI, ukierunkowanych na 40 niebezpiecznych tematów w sześciu kategoriach.
- Od drugiej do trzeciej tury konwersacji szkodliwe treści wzrosły o 21%, a ogólna jakość odpowiedzi wzrosła o 33%.
- Interakcje w trzeciej turze konsekwentnie wykazywały najwyższy ASR.
Badania te podkreślają, że LLM są również podatne na „zamieszanie pakietowe”, w którym modele sztucznej inteligencji zalecają deweloperom nieistniejące pakiety, co stanowi zagrożenie, które może potencjalnie napędzać ataki na łańcuch dostaw oprogramowania.
Strategie łagodzenia skutków:
- Filtrowanie treści w celu wyeliminowania szkodliwych danych wejściowych i wyjściowych.
- Szybka inżynieria w celu zwiększenia odporności LLM.
- Jasne zdefiniowanie zakresu akceptowalnych danych wejściowych.
Deceptive Delight Exploits LLMs to Generate Harmful Content
Recent cybersecurity research has uncovered a novel adversarial technique dubbed Deceptive Delight, capable of jailbreaking large language models through conversational manipulation. This technique, identified by Palo Alto Networks Unit 42, leverages a multi-turn interaction to trick AI models into producing unsafe or harmful content, bypassing their inherent safety features.
Key Findings:
Success Rate: The attack achieves a 64.6% average success rate (within just three conversational turns.
Process: Unlike previous jailbreak techniques like Crescendo, Deceptive Delight gradually bypasses safety protocols in LLM, escalating harmful outputs by manipulating context.
Categories: Unsafe topics such as violence, harassment, hate speech, and self-harm were found to have the highest ASR, especially within the violence category.
How It Works: The adversarial technique exploits the model’s limited attention span, making it difficult for the AI to maintain consistent context awareness across longer, multi-step conversations. As a result, it may prioritize harmless content while overlooking more dangerous material embedded within the dialogue.
Context Fusion Attack: In parallel, researchers have developed another method called ContextFusionAttack, which stealthily integrates malicious content into benign scenarios, evading detection by filtering key terms.
Testing & Results:
- The attack was tested on eight AI models, targeting 40 unsafe topics across six categories.
- From the second to third conversational turn, harmful content increased by 21%, and overall response quality rose by 33%.
- Third-turn interactions consistently showed the highest ASR.
This research highlights that LLMs are also vulnerable to "package confusion", where AI models recommend non-existent packages to developers, a threat that could potentially fuel software supply chain attacks.
Mitigation Strategies:
- Content filtering to weed out harmful inputs and outputs.
- Prompt engineering to bolster LLM resilience.
- Clearly defining the range of acceptable inputs.
Autor: Sebastian Burgemejster
Comments