Nytt typ av jailbreak (typ av hack) för ChatGPT, så funkar det.

CybersäkerhetNytt typ av jailbreak (typ av hack) för ChatGPT, så funkar det.

Nytt typ av jailbreak (typ av hack) för ChatGPT, så funkar det.

Forskare från Washington och Chicago har utvecklat en ny metod för att kringgå de säkerhetsåtgärder som implementerats i stora språkmodeller (LLMs), såsom GPT-3.5, GPT-4, Gemini, Claude och Llama2. Genom att använda ASCII-konst lyckas deras verktyg ArtPrompt, framkalla svar på frågor som normalt skulle avvisas av dessa modeller. Denna upptäckt har potentiella implikationer för både den tekniska säkerheten och utvecklingen av AI.

Så fungerar det nya jailbreaket

ArtPrompt-attacken utförs i två steg: ordmaskering och skapande av maskerade uppmaningar. Inledningsvis maskeras känsliga ord i den ursprungliga frågeställningen för att undvika konflikt med LLM:ernas säkerhetsriktlinjer. Därefter skapas en ASCII-konstrepresentation av dessa ord, vilket effektivt lurar modellerna att producera svar utan att aktivera säkerhetsmekanismerna.

21 min video när Matthew Berman förklarar närmare hur det fungerar

Exempel på användning

Forskningsteamet bakom ArtPrompt har demonstrerat verktygets förmåga genom att framgångsrikt ställa frågor om hur man bygger bomber och förfalskar pengar. Dessa exempel illustrerar hur ASCII-konst kan användas för att enkelt och effektivt kringgå de skyddsåtgärder som utvecklats för att hålla AI:ns svar inom etiska och lagliga ramar.

Säkerhetsutmaningar och framtida arbete

Utvecklingen av ArtPrompt belyser en kontinuerlig katt-och-råtta-lek mellan AI-utvecklare och de som strävar efter att finna brister i dessa system. Det ställer även frågor om framtida säkerhetsåtgärder och hur AI-teknik kan säkras mot missbruk.

Referenser

Läs mer på ArtPrompt – här

Tomshardware har även de en förenklad version – här

Kommentera:

Kommentar

Type at least 1 character to search
Kontakta oss:
Hitta oss i sociala medier: