AI
Anthropic wzmacnia mechanizmy ochrony przed nadużyciami w zakresie wykorzystania AI
Anthropic opracowuje nowe mechanizmy ochronne przeciwko nieodpowiedniemu wykorzystaniu sztucznej inteligencji – konkurencja pod presją, koszty operacyjne znacznie rosną.

Anthropic przedstawił nowy środek bezpieczeństwa, który ma zapobiec wykorzystywaniu jego modeli AI do nielegalnych lub niebezpiecznych celów. Tak zwany „Constitutional Classifier” ma działać jako warstwa ochronna nad dużymi modelami językowymi, takimi jak chatbot Claude, i monitorować zarówno dane wejściowe, jak i wyjściowe pod kątem problematycznych treści.
Rozwój ten następuje w momencie, gdy firmy technologiczne, takie jak Microsoft i Meta, znajdują się pod rosnącą presją, aby zabezpieczyć swoje modele AI przed „Jailbreakingiem” – metodami, które pozwalają użytkownikom omijać środki bezpieczeństwa w celu uzyskania dostępu do zakazanych informacji, takich jak instrukcje dotyczące wytwarzania broni chemicznej lub innych niebezpiecznych treści.
Microsoft führte bereits im März 2024 einen „Prompt Shield“ ein, während Meta im Juli ein Schutzsystem präsentierte, das später nach Schwachstellenkorrekturen verbessert wurde.
Laut Anthropic-Mitarbeiter Mrinank Sharma wurde das neue System vor allem als Reaktion auf sicherheitskritische Bedrohungen im chemischen Bereich entwickelt. Der Vorteil liege darin, dass sich die Schutzmechanismen flexibel an neue Bedrohungen anpassen ließen. „Das Wichtigste an unserer Arbeit ist, dass wir glauben, dieses Problem sei lösbar“, so Sharma.
„Konstytucyjny Klasyfikator” opiera się na określonym zestawie zasad, które precyzyjnie definiują, które treści są dozwolone, a które zabronione. Dzięki temu można celowo zająć się określonymi ryzykami.
Aby przetestować skuteczność systemu, Anthropic oferował nagrody do 15.000 dolarów dla badaczy bezpieczeństwa, którzy próbowali obejść środki ochronne. Ci „Red Teamerzy” spędzili ponad 3.000 godzin na atakowaniu systemu. Wynik: Algorytm Sonnet Claude 3.5 z aktywowanymi mechanizmami ochronnymi zablokował ponad 95 procent ataków – bez środków ochronnych wskaźnik skuteczności wyniósł jedynie 14 procent.
Częstym problemem systemów bezpieczeństwa AI jest równowaga między ochroną a przyjaznością dla użytkownika. Zbyt rygorystyczne filtry mogą prowadzić do błędnego odrzucania nawet nieszkodliwych zapytań. Firma Anthropic podaje, że nowe środki zwiększyły współczynnik odrzucenia tylko o 0,38 punktu procentowego.
Allerdings steigen durch solche Schutzmechanismen auch die Betriebskosten. Der zusätzliche Rechenaufwand zur Implementierung der Classifier würde die sogenannten „Inference Overhead“-Kosten um rund 24 Prozent erhöhen, so Anthropic.
Eksperci ds. bezpieczeństwa ostrzegają, że generatywne modele AI mogą umożliwiać coraz większej liczbie osób dostęp do niebezpiecznych informacji – nawet bez specjalistycznej wiedzy. „Kiedyś trzeba było martwić się o zaawansowane zagrożenia ze strony państw”, powiedział Ram Shankar Siva Kumar, szef zespołu AI-Red w Microsoft. „Dziś jednym z moich potencjalnych napastników jest nastolatek z kiepskim językiem.”