19.06.2026 - 05:16

Взлом изнутри: ученые научились управлять нейросетями и заставили их врать про вакцины и наркотики

Ученые нашли способ обходить защиту нейросетей

Американские исследователи обнаружили брешь в безопасности больших языковых моделей, позволяющую принудительно изменять их ответы. Манипулируя внутренними параметрами ИИ, они заставили алгоритмы выдавать опасные инструкции и конспирологические теории, обойдя встроенные ограничения.

Взлом изнутри: ученые научились управлять нейросетями и заставили их врать про вакцины и наркотики

Фото: коллаж RuNews24.ru

Группа специалистов под руководством Михаила Белкина (Калифорнийский университет в Сан-Диего) и Адита Радхакришнана (Массачусетский технологический институт) представила технологию, которая позволяет буквально «перенастраивать» мышление искусственного интеллекта.

Ученые проанализировали внутреннюю архитектуру открытых моделей, включая Llama и DeepSeek, и выделили 512 ключевых концептов, сгруппированных по темам — от эмоциональных состояний до географии. С помощью математических алгоритмов они научились усиливать или подавлять влияние каждого из этих понятий на финальный ответ нейросети, причём метод работает не только с английским, но и с китайским и хинди.

Разработанный подход является развитием предыдущих наработок команды — алгоритмов Recursive Feature Machines, которые позволяли выявлять скрытые смысловые паттерны внутри моделей. Среди потенциально полезных сценариев применения — повышение качества автоматического перевода кода между языками программирования, а также обнаружение так называемых галлюцинаций, когда ИИ с абсолютной уверенностью выдает вымышленные данные за достоверные факты.

Однако та же самая техника открывает злоумышленникам путь к злоупотреблениям. В ходе экспериментов исследователям удалось снизить значимость концепта «отказ» — и модель перестала блокировать запрещённые запросы. В результате нейросеть охотно делилась рецептами приготовления наркотиков, продвигала теорию о плоской Земле и характеризовала вакцины от COVID-19 как «ядовитые». По сути, учёные продемонстрировали готовый инструмент для фабрикации дезинформации и создания пропагандистского контента в промышленных масштабах.

Авторы работы признают, что их метод имеет ограничения: он протестирован лишь на открытых моделях и не работает с закрытыми коммерческими системами вроде Claude. Кроме того, выборка из 512 концептов может не охватывать более абстрактные категории. Тем не менее, в профессиональном сообществе уже заговорили о необходимости законодательного регулирования подобных технологий, хотя конкретных запретов пока не введено. Ситуация обостряется ещё и тем, что одна из упомянутых в исследовании моделей — Llama — принадлежит компании Meta, которая признана в России экстремистской организацией, что автоматически ставит под сомнение легитимность использования таких разработок на территории РФ.

Ранее в Италии впервые зафиксировали зависимость от искусственного интеллекта. По обновленным правилам «Оскара», в номинации не смогут попадать работы, созданные с участием нейросети.

Автор: Наталья Лебедева

Читайте нас в телеграм

Главное сегодня

Ядерный апокалипсис близко? Лавров жестко предупредил НАТО: «Обмен ударами неизбежен»

«Польша снова проиграла»: Моравецкий в ярости от визита Зеленского в Гданьск

До 20 лет тюрьмы: на Тину Кароль завели уголовное дело за поддержку ВСУ и дискредитацию российской армии

«В коридоре, пока взрослые решают»: Рютте выставил Зеленского за дверь саммита НАТО в Анкаре

Лавров вскрыл тактику ЕС: европейцы покупают время кровью украинцев ради войны с Россией

Брюссель вынес вердикт: ЕС официально сделал Россию виноватой за все дроны — даже украинские

Лавров заявил, что Европа хочет поражения России, а статью для Politico в итоге опубликовал в своем журнале

Венгерский премьер в последний момент вырезал из декларации ЕС пункт об ускоренном приеме Украины: «Это было непросто»

Берлин заряжает Киев: Писториус анонсировал поставки «трехзначного» числа ракет и новые совместные заводы по БПЛА

Греция пригрозила Зеленскому: найденный у курорта дрон-камикадзе стал поводом для жесткого предупреждения на саммите ЕС

«Безмозглая» и «немыслимое»: финский политик в ярости от призывов Каллас давить на Россию

Новости дня

Масштабная атака БПЛА на Москву: 17 пострадавших, ответные удары по Украине

Кошмар в зоопарке: неизвестный столкнул 3-летнего малыша в ров с крокодилами — ребенок в критическом состоянии

Хантавирус отступил: ВОЗ сняла карантин с лайнера MV Hondius, пассажиры отправляются по домам

Раскол в ЕС: контакты Кошты с Москвой грозят сорвать саммит в Брюсселе

Британский курьер Amazon заработал 2,4 млн фунтов на списывании и сел в тюрьму: как «фабрика» дипломов разрушила жизнь 100 студентов

Суд переписал правила: Хантер Байден мог бы избежать обвинений — закон о марихуане и оружии признан незаконным

Легенда умерла: туристы «затоптали» тысячелетний дуб Робина Гуда в Шервудском лесу

Будапешт разворачивается лицом к НАТО: новый министр объявил о возвращении, но с одним жестким «нет» для Украины

В Японии — скандал: мэр ушла в декрет, и это вызвало национальный шок

«Польша снова проиграла»: Моравецкий в ярости от визита Зеленского в Гданьск

Кошмар в Гронингене: 13-летняя девочка арестована по подозрению в убийстве родителей