Anthropic introducerar nytt skydd mot AI-jailbreaks

CybersäkerhetAnthropic introducerar nytt skydd mot AI-jailbreaks

Anthropic introducerar nytt skydd mot AI-jailbreaks

Missbruk av AI genom så kallade ”jailbreaks” – där användare försöker kringgå säkerhetsbegränsningar – har blivit ett allt större problem. OpenAI-utmanaren Anthropic har nu lanserat ett nytt skyddssystem kallat ”Constitutional Classifiers”, som ska kunna blockera en överväldigande majoritet av alla försök att hacka företagets AI-modell Claude 3.5 Sonnet.

En avancerad skyddsmekanism testas

Enligt ARS Technica har Anthropic redan börjat testa det nya systemet genom en demo inriktad på ämnet kemiska vapen. Företaget utvärderar aktivt om det går att bryta igenom skyddet och hur effektivt det står emot attacker.

Det återstår att se om någon lyckas knäcka denna nya försvarsmekanism, men lanseringen markerar ett viktigt steg mot säkrare AI-teknik.

Type at least 1 character to search
Kontakta oss:
Hitta oss i sociala medier: