Исследователи из Dexai, Sapienza и Sant'Anna неожиданно для самих себя обнаружили забавный способ, позволяющий обхитрить большие языковые модели. По их словам, если вредный запрос обратить в метафоры и написать в форме стиха – многие ИИ начинают нарушать собственные правила безопасности.
Главные тезисы
- Пока сложно сказать, какие именно элементы поэтического языка ломают защитные фильтры ИИ.
- Любой пользователь фактически может написать метафорой, аллегорией или в поэтической манере, и это уже позволит обхитрить большие языковые модели.
Люди продолжают искать пробелы в работе ИИ
В рамках нового исследования эксперты создали 20 коротких стихотворений, каждое из которых фактически являлось вредной инструкцией.
Главный нюанс заключался в том, что это было сделано с помощью метафор и завуалированных месседжей.
После этого эти поэтические "шедевры" были предоставлены ИИ без контекста.
В ходе исследования были использованы различные ИИ, например Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot.
Эксперты обратили внимание на то, что на рукописные стихи некоторые системы реагировали совсем плохо.
Также указано, что у ряда моделей уровень взлома безопасности доходил до 90% и выше.
Gemini 2.5 Pro, например, пропустил опасный контент во всех тестах такого типа.
