
Anthropic introducerar nytt skydd mot AI-jailbreaks
Missbruk av AI genom så kallade ”jailbreaks” – där användare försöker kringgå säkerhetsbegränsningar – har blivit ett allt större problem. OpenAI-utmanaren Anthropic har nu lanserat ett nytt skyddssystem kallat ”Constitutional Classifiers”, som ska kunna blockera en överväldigande majoritet av alla försök att hacka företagets AI-modell Claude 3.5 Sonnet.
En avancerad skyddsmekanism testas
Enligt ARS Technica har Anthropic redan börjat testa det nya systemet genom en demo inriktad på ämnet kemiska vapen. Företaget utvärderar aktivt om det går att bryta igenom skyddet och hur effektivt det står emot attacker.
Det återstår att se om någon lyckas knäcka denna nya försvarsmekanism, men lanseringen markerar ett viktigt steg mot säkrare AI-teknik.