Главное сегодня

Новости дня

Все новости дня
Наука

Взлом изнутри: ученые научились управлять нейросетями и заставили их врать про вакцины и наркотики

Ученые нашли способ обходить защиту нейросетей

Американские исследователи обнаружили брешь в безопасности больших языковых моделей, позволяющую принудительно изменять их ответы. Манипулируя внутренними параметрами ИИ, они заставили алгоритмы выдавать опасные инструкции и конспирологические теории, обойдя встроенные ограничения.

Взлом изнутри: ученые научились управлять нейросетями и заставили их врать про вакцины и наркотики
Фото: коллаж RuNews24.ru

Группа специалистов под руководством Михаила Белкина (Калифорнийский университет в Сан-Диего) и Адита Радхакришнана (Массачусетский технологический институт) представила технологию, которая позволяет буквально «перенастраивать» мышление искусственного интеллекта.

Ученые проанализировали внутреннюю архитектуру открытых моделей, включая Llama и DeepSeek, и выделили 512 ключевых концептов, сгруппированных по темам — от эмоциональных состояний до географии. С помощью математических алгоритмов они научились усиливать или подавлять влияние каждого из этих понятий на финальный ответ нейросети, причём метод работает не только с английским, но и с китайским и хинди.

Разработанный подход является развитием предыдущих наработок команды — алгоритмов Recursive Feature Machines, которые позволяли выявлять скрытые смысловые паттерны внутри моделей. Среди потенциально полезных сценариев применения — повышение качества автоматического перевода кода между языками программирования, а также обнаружение так называемых галлюцинаций, когда ИИ с абсолютной уверенностью выдает вымышленные данные за достоверные факты.

Однако та же самая техника открывает злоумышленникам путь к злоупотреблениям. В ходе экспериментов исследователям удалось снизить значимость концепта «отказ» — и модель перестала блокировать запрещённые запросы. В результате нейросеть охотно делилась рецептами приготовления наркотиков, продвигала теорию о плоской Земле и характеризовала вакцины от COVID-19 как «ядовитые». По сути, учёные продемонстрировали готовый инструмент для фабрикации дезинформации и создания пропагандистского контента в промышленных масштабах.

Авторы работы признают, что их метод имеет ограничения: он протестирован лишь на открытых моделях и не работает с закрытыми коммерческими системами вроде Claude. Кроме того, выборка из 512 концептов может не охватывать более абстрактные категории. Тем не менее, в профессиональном сообществе уже заговорили о необходимости законодательного регулирования подобных технологий, хотя конкретных запретов пока не введено. Ситуация обостряется ещё и тем, что одна из упомянутых в исследовании моделей — Llama — принадлежит компании Meta, которая признана в России экстремистской организацией, что автоматически ставит под сомнение легитимность использования таких разработок на территории РФ.

Ранее в Италии впервые зафиксировали зависимость от искусственного интеллекта. По обновленным правилам «Оскара», в номинации не смогут попадать работы, созданные с участием нейросети.

Автор: Наталья Лебедева

Читайте нас в телеграм
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.Согласен