Исследователи из Dexai, Sapienza и Sant'Anna неожиданно для самих себя обнаружили забавный способ, позволяющий обхитрить большие языковые модели. По их словам, если вредный запрос обратить в метафоры и написать в форме стиха – многие ИИ начинают нарушать собственные правила безопасности.
Главные тезисы
- Пока сложно сказать, какие именно элементы поэтического языка ломают защитные фильтры ИИ.
- Любой пользователь фактически может написать метафорой, аллегорией или в поэтической манере, и это уже позволит обхитрить большие языковые модели.
Люди продолжают искать пробелы в работе ИИ
В рамках нового исследования эксперты создали 20 коротких стихотворений, каждое из которых фактически являлось вредной инструкцией.
Главный нюанс заключался в том, что это было сделано с помощью метафор и завуалированных месседжей.
После этого эти поэтические "шедевры" были предоставлены ИИ без контекста.
Такие стихи пробивали защиту в 62% случаев. Когда те же вредоносные инструкции автоматически превращали в стихи по образцу авторских примеров, успех был около 43%. Всё это гораздо выше, чем у обычных текстовых запросов без поэтического обрамления.
В ходе исследования были использованы различные ИИ, например Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot.
Эксперты обратили внимание на то, что на рукописные стихи некоторые системы реагировали совсем плохо.
Также указано, что у ряда моделей уровень взлома безопасности доходил до 90% и выше.
Gemini 2.5 Pro, например, пропустил опасный контент во всех тестах такого типа.
GPT-5 в этой истории оказался самым стойким — от 0 до 10% успешных атак на авторские стихи и от 1 до 5% на автоматические.
Больше по теме
- Категория
- Технологии
- Дата публикации
- Додати до обраного
- Категория
- Технологии
- Дата публикации
- Додати до обраного
- Категория
- Технологии
- Дата публикации
- Додати до обраного