Корпорация Microsoft принимает меры для предотвращения провоцирования чат-ботов на базе искусственного интеллекта к необычному или вредному поведению с помощью хитростей. В блоге в четверг компания, базирующаяся в Редмонде, штат Вашингтон, объявила о новых функциях безопасности для Azure AI Studio. Этот инструмент позволяет разработчикам создавать настроенных AI-ассистентов с использованием своих данных.
К новым инструментам относятся «Щиты от подсказок», которые предназначены для обнаружения и блокирования преднамеренных попыток – так называемых атак через инъекцию подсказок или взломов, – направленных на вынуждение ИИ-модели к неожиданному поведению.
Microsoft борется с "косвенными инъекциями приказов", когда хакеры вставляют вредоносные инструкции в данные, на основе которых обучается модель, что может привести к несанкционированным действиям, таким как кража информации пользователей или захват системы.
Такие атаки, по словам Сары Берд, главного директора по продукции Microsoft в области ответственного ИИ, представляют собой уникальную проблему и угрозу. Новые меры защиты направлены на обнаружение подозрительных вводов и их блокировку в реальном времени.
Кроме того, Microsoft внедряет функцию, предупреждающую пользователей, когда модель выдает вымышленные ответы или ошибается. Microsoft стремится повысить доверие к своим генеративным инструментам искусственного интеллекта, которые используются как потребителями, так и корпоративными клиентами.
В феврале компания исследовала инциденты со своим чат-ботом копилотом, который генерировал ответы от странных до вредоносных. После проверки инцидентов Microsoft объявила, что пользователи преднамеренно пытались провоцировать копилота на такие ответы.
Майкрософт является крупнейшим инвестором OpenAI и сделал партнерство ключевым элементом своей стратегии в области ИИ. Берд подчеркнула, что Майкрософт и OpenAI посвящены безопасному использованию ИИ и интегрируют защитные меры в крупные языковые модели, которые лежат в основе генеративного ИИ. "Однако нельзя полагаться исключительно на модель", - сказала она. "Например, эти джейлбрейки являются врожденной слабостью технологии моделирования."