Оказывается, Терминатор фильмы были бы более реалистичными, если бы у Сары Коннер был диплом магистра искусств поэзии.
В новой статье под названием «Состязательная поэзия как универсальный одноповоротный механизм взлома в моделях большого языка» группа исследователей обнаружила, что написание подсказки LLM в форме «состязательной поэзии» (какая фраза!) — более эффективный способ заставить модель игнорировать запрограммированные защитные ограждения. Поэзия сильнее, чем мы могли себе представить.
«В этом исследовании, — пишут исследователи, — 20 вручную созданных состязательных стихотворений (вредоносные запросы, переформулированные в поэтическую форму) достигли среднего показателя успешных атак (ASR) 62% по 25 пограничным закрытым и открытым моделям, причем у некоторых поставщиков этот показатель превышает 90%». Модели такие ослепленный стихами, что сделают все, что попросишь, в том числе и преступления.
По соображениям безопасности сами подсказки не включены в статью, но они звучат довольно отвратительно. Однако модели чаще подчиняются, если их задать в стихах, чем в прозе. Этот результат показывает, что «одни только стилистические вариации могут обойти современные механизмы безопасности, предполагая фундаментальные ограничения в текущих методах согласования и протоколах оценки».
В статье более подробно рассматриваются гипотезы о том, почему это происходит, но «похоже, это связано с тем, как LLM обрабатывают поэтическую структуру: сжатые метафоры, стилизованный ритм и нетрадиционное повествовательное обрамление, которые в совокупности нарушают или обходят эвристику сопоставления с образцом, на которой полагаются ограждения». То, как поэзия остраняет язык и ищет уникальные фразы, похоже, мешает этому программному обеспечению сортировать текст. Любой, кто читал что-либо, созданное с помощью большой языковой модели, знает, что она предпочитает мягкий и ожидаемый стиль, своего рода лингвистический консенсус, который поэты пытаются разрушить.
Важно отметить, что эта возможность взломать джейлбрейк с помощью состязательных стихов — это не просто брешь в броне одного конкретного программного обеспечения. Исследователи смогли воспроизвести это во многих моделях ИИ, предполагая, что «это явление носит структурный характер, а не зависит от поставщика».
Масштаб тоже не помогает. Интересный вывод из этой статьи заключается в том, что «вопреки общепринятым ожиданиям, модели меньшего размера показали более высокий процент отказов, чем их более крупные аналоги, при оценке по идентичным поэтическим подсказкам». Обычно нам говорят, что механизмы прогнозирования искусственного интеллекта будут становиться более функциональными, чем больше они станут и чем больше данных они будут потреблять. Это исследование предполагает, что этот аргумент в пользу роста может быть неточным или что в нем может быть что-то слишком укоренившееся, чтобы его можно было скорректировать с помощью масштаба.
Еще один умный вывод от моего коллеги Кэлвина: «Для всех поэтов разумно сказать, что они работают в STEM». На самом деле, возможно, имеет смысл добавить букву и сделать ее STEMP.
Статья действительно интересная и заслуживает более пристального внимания. Кроме того, найдите время, чтобы прочитать сегодня стихотворение, поскольку оно может быть ключом к борьбе с порожденными помоями.








