top of page
kcelinska

Deceptive Delight wykorzystuje LLM do generowania szkodliwych treści

Niedawne badania nad cyberbezpieczeństwem ujawniły nową technikę adwersarzy o nazwie Deceptive Delight, zdolną do jailbreakingu dużych modeli językowych poprzez manipulację konwersacyjną. Technika ta, zidentyfikowana przez Palo Alto Networks Unit 42, wykorzystuje wieloobrotową interakcję w celu nakłonienia modeli AI do tworzenia niebezpiecznych lub szkodliwych treści, omijając ich nieodłączne funkcje bezpieczeństwa.


  • Kluczowe wnioski:

Współczynnik sukcesu: Atak osiąga średni wskaźnik powodzenia na poziomie 64,6% (w ciągu zaledwie trzech tur konwersacji).

Proces: W przeciwieństwie do poprzednich technik jailbreak, takich jak Crescendo, Deceptive Delight stopniowo omija protokoły bezpieczeństwa w LLM, eskalując szkodliwe wyniki poprzez manipulowanie kontekstem.

Kategorie: Stwierdzono, że niebezpieczne tematy, takie jak przemoc, nękanie, mowa nienawiści i samookaleczenia, mają najwyższy ASR, zwłaszcza w kategorii przemocy.


Jak to działa? Technika przeciwników wykorzystuje ograniczony zakres uwagi modelu, utrudniając sztucznej inteligencji utrzymanie spójnej świadomości kontekstu w dłuższych, wieloetapowych rozmowach. W rezultacie może nadawać priorytet nieszkodliwym treściom, pomijając bardziej niebezpieczne materiały osadzone w dialogu.


Atak fuzji kontekstów: Równolegle badacze opracowali inną metodę o nazwie ContextFusionAttack, która ukradkiem integruje złośliwe treści z łagodnymi scenariuszami, unikając wykrycia poprzez filtrowanie kluczowych terminów.


Testy i wyniki:

- Atak został przetestowany na ośmiu modelach AI, ukierunkowanych na 40 niebezpiecznych tematów w sześciu kategoriach.

- Od drugiej do trzeciej tury konwersacji szkodliwe treści wzrosły o 21%, a ogólna jakość odpowiedzi wzrosła o 33%.

- Interakcje w trzeciej turze konsekwentnie wykazywały najwyższy ASR.


Badania te podkreślają, że LLM są również podatne na „zamieszanie pakietowe”, w którym modele sztucznej inteligencji zalecają deweloperom nieistniejące pakiety, co stanowi zagrożenie, które może potencjalnie napędzać ataki na łańcuch dostaw oprogramowania.


Strategie łagodzenia skutków:

- Filtrowanie treści w celu wyeliminowania szkodliwych danych wejściowych i wyjściowych.

- Szybka inżynieria w celu zwiększenia odporności LLM.

- Jasne zdefiniowanie zakresu akceptowalnych danych wejściowych.







Deceptive Delight Exploits LLMs to Generate Harmful Content


Recent cybersecurity research has uncovered a novel adversarial technique dubbed Deceptive Delight, capable of jailbreaking large language models through conversational manipulation. This technique, identified by Palo Alto Networks Unit 42, leverages a multi-turn interaction to trick AI models into producing unsafe or harmful content, bypassing their inherent safety features.


  • Key Findings:


Success Rate: The attack achieves a 64.6% average success rate (within just three conversational turns.


Process: Unlike previous jailbreak techniques like Crescendo, Deceptive Delight gradually bypasses safety protocols in LLM, escalating harmful outputs by manipulating context.


Categories: Unsafe topics such as violence, harassment, hate speech, and self-harm were found to have the highest ASR, especially within the violence category.

How It Works: The adversarial technique exploits the model’s limited attention span, making it difficult for the AI to maintain consistent context awareness across longer, multi-step conversations. As a result, it may prioritize harmless content while overlooking more dangerous material embedded within the dialogue.


  • Context Fusion Attack: In parallel, researchers have developed another method called ContextFusionAttack, which stealthily integrates malicious content into benign scenarios, evading detection by filtering key terms.


  • Testing & Results:


- The attack was tested on eight AI models, targeting 40 unsafe topics across six categories.

- From the second to third conversational turn, harmful content increased by 21%, and overall response quality rose by 33%.

- Third-turn interactions consistently showed the highest ASR.


This research highlights that LLMs are also vulnerable to "package confusion", where AI models recommend non-existent packages to developers, a threat that could potentially fuel software supply chain attacks.


  • Mitigation Strategies: 


- Content filtering to weed out harmful inputs and outputs.

- Prompt engineering to bolster LLM resilience.

- Clearly defining the range of acceptable inputs.



1 wyświetlenie0 komentarzy

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page