Anthropic wzmacnia mechanizmy ochrony przed nadużyciami w zakresie wykorzystania AI

Eulerpool News 5 lut 2025, 04:37

Anthropic przedstawił nowy środek bezpieczeństwa, który ma zapobiec wykorzystywaniu jego modeli AI do nielegalnych lub niebezpiecznych celów. Tak zwany „Constitutional Classifier” ma działać jako warstwa ochronna nad dużymi modelami językowymi, takimi jak chatbot Claude, i monitorować zarówno dane wejściowe, jak i wyjściowe pod kątem problematycznych treści.

Rozwój ten następuje w momencie, gdy firmy technologiczne, takie jak Microsoft i Meta, znajdują się pod rosnącą presją, aby zabezpieczyć swoje modele AI przed „Jailbreakingiem” – metodami, które pozwalają użytkownikom omijać środki bezpieczeństwa w celu uzyskania dostępu do zakazanych informacji, takich jak instrukcje dotyczące wytwarzania broni chemicznej lub innych niebezpiecznych treści.

Microsoft führte bereits im März 2024 einen „Prompt Shield“ ein, während Meta im Juli ein Schutzsystem präsentierte, das später nach Schwachstellenkorrekturen verbessert wurde.

Laut Anthropic-Mitarbeiter Mrinank Sharma wurde das neue System vor allem als Reaktion auf sicherheitskritische Bedrohungen im chemischen Bereich entwickelt. Der Vorteil liege darin, dass sich die Schutzmechanismen flexibel an neue Bedrohungen anpassen ließen. „Das Wichtigste an unserer Arbeit ist, dass wir glauben, dieses Problem sei lösbar“, so Sharma.

„Konstytucyjny Klasyfikator” opiera się na określonym zestawie zasad, które precyzyjnie definiują, które treści są dozwolone, a które zabronione. Dzięki temu można celowo zająć się określonymi ryzykami.

Aby przetestować skuteczność systemu, Anthropic oferował nagrody do 15.000 dolarów dla badaczy bezpieczeństwa, którzy próbowali obejść środki ochronne. Ci „Red Teamerzy” spędzili ponad 3.000 godzin na atakowaniu systemu. Wynik: Algorytm Sonnet Claude 3.5 z aktywowanymi mechanizmami ochronnymi zablokował ponad 95 procent ataków – bez środków ochronnych wskaźnik skuteczności wyniósł jedynie 14 procent.

Częstym problemem systemów bezpieczeństwa AI jest równowaga między ochroną a przyjaznością dla użytkownika. Zbyt rygorystyczne filtry mogą prowadzić do błędnego odrzucania nawet nieszkodliwych zapytań. Firma Anthropic podaje, że nowe środki zwiększyły współczynnik odrzucenia tylko o 0,38 punktu procentowego.

Allerdings steigen durch solche Schutzmechanismen auch die Betriebskosten. Der zusätzliche Rechenaufwand zur Implementierung der Classifier würde die sogenannten „Inference Overhead“-Kosten um rund 24 Prozent erhöhen, so Anthropic.

Eksperci ds. bezpieczeństwa ostrzegają, że generatywne modele AI mogą umożliwiać coraz większej liczbie osób dostęp do niebezpiecznych informacji – nawet bez specjalistycznej wiedzy. „Kiedyś trzeba było martwić się o zaawansowane zagrożenia ze strony państw”, powiedział Ram Shankar Siva Kumar, szef zespołu AI-Red w Microsoft. „Dziś jednym z moich potencjalnych napastników jest nastolatek z kiepskim językiem.”

AI

Anthropic wzmacnia mechanizmy ochrony przed nadużyciami w zakresie wykorzystania AI

Professional-grade financial intelligence

Wiadomości

Chevron otrzymuje zielone światło na przejęcie Hess za 53 miliardy dolarów po decyzji arbitrażu

Perplexity wzrasta po ponownej inwestycji do wyceny na poziomie 18 miliardów dolarów

Indyjski urząd lotnictwa krytykuje spekulacje dotyczące katastrofy Air India

Apollo pożycza £80 mln Nottingham Forest – drogi kredyt na refinansowanie długów

BP sprzedaje amerykański biznes wiatrowy firmie LS Power i kontynuuje kurs na paliwa kopalne