Как легко обхитрить ИИ — необычный способ от экспертов

Богдан Колесник

Источник: online.ua

Исследователи из Dexai, Sapienza и Sant'Anna неожиданно для самих себя обнаружили забавный способ, позволяющий обхитрить большие языковые модели. По их словам, если вредный запрос обратить в метафоры и написать в форме стиха – многие ИИ начинают нарушать собственные правила безопасности.

Главные тезисы

Пока сложно сказать, какие именно элементы поэтического языка ломают защитные фильтры ИИ.
Любой пользователь фактически может написать метафорой, аллегорией или в поэтической манере, и это уже позволит обхитрить большие языковые модели.

Люди продолжают искать пробелы в работе ИИ

В рамках нового исследования эксперты создали 20 коротких стихотворений, каждое из которых фактически являлось вредной инструкцией.

Главный нюанс заключался в том, что это было сделано с помощью метафор и завуалированных месседжей.

После этого эти поэтические "шедевры" были предоставлены ИИ без контекста.

Такие стихи пробивали защиту в 62% случаев. Когда те же вредоносные инструкции автоматически превращали в стихи по образцу авторских примеров, успех был около 43%. Всё это гораздо выше, чем у обычных текстовых запросов без поэтического обрамления.

В ходе исследования были использованы различные ИИ, например Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot.

Эксперты обратили внимание на то, что на рукописные стихи некоторые системы реагировали совсем плохо.