Пользователей чат-ботов предупредили об опасных советах от ИИ

Израильские исследователи заявили о росте числа взломанных или лишенных механизмов безопасности чат-ботов на основе искусственного интеллекта. По их словам, такие модели легко выдают инструкции по незаконным действиям — от взлома и отмывания денег до создания взрывчатки. Об этом пишет The Guardian.

По данным газеты, опасения экспертов усиливает тревожная тенденция: все больше чат-ботов подвергаются так называемому jailbreak — взлому, позволяющему обойти встроенные системы защиты. Эти механизмы изначально предназначены для блокировки запросов, способных привести к вредным, предвзятым или противоправным действиям пользователей.

Самая успешная компания XXI века Ее создал мигрант из ЮАР, который никогда не занимался бизнесом. Он смог потеснить Red Bull Мир13 минут чтения

Jailbreaking обычно осуществляется с помощью тщательно сформулированных подсказок, которые вводят модели в заблуждение и заставляют их генерировать запрещенные советы. Чтобы наглядно продемонстрировать масштаб проблемы, профессор Лиор Роках и доктор Михаэль Файер из Университета имени Бен-Гуриона в Негеве (Израиль) разработали универсальный способ взлома, позволивший обойти защиту сразу у нескольких популярных чат-ботов.

Согласно их отчету, после взлома языковые модели начали стабильно выдавать ответы практически на любые запросы, включая те, которые обычно блокируются. Среди примеров — инструкции по взлому компьютерных сетей, изготовлению наркотиков и пошаговые руководства по совершению других преступлений.

«То, что раньше было доступно лишь государственным структурам или организованным преступным группам, скоро может оказаться в распоряжении любого пользователя с ноутбуком или мобильным телефоном», — утверждают авторы исследования.

Кирилл, Ева тебе не простит Камера видеонаблюдения зафиксировала, как мужчина зарезал жену, умолявшую его остановиться. Он может избежать тюрьмы Общество7 минут чтения

Исследователи сообщили, что связались с ведущими разработчиками языковых моделей, чтобы предупредить их о существовании универсального метода обхода защиты, однако реакция оказалась, по их словам, «разочаровывающей». Некоторые компании не ответили вовсе, а другие заявили, что подобные атаки не подпадают под их программы bounty, в рамках которых этичных хакеров поощряют за обнаружение уязвимостей.

Компания OpenAI, разработавшая ChatGPT, заявила, что ее последняя модель o1 способна учитывать внутреннюю политику безопасности, что делает ее более устойчивой к взлому. Также в компании подчеркнули, что постоянно работают над надежностью своих систем.

Microsoft, в свою очередь, предоставила ссылку на свой блог, посвященный мерам защиты от подобных атак.

Чтобы не пропускать главные материалы «Холода», подпишитесь на наши социальные сети!

Instagram

Facebook

TikTok