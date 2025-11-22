Исследователи из Dexai, Sapienza и Sant'Anna неожиданно для самих себя обнаружили забавный способ, позволяющий обхитрить большие языковые модели. По их словам, если вредный запрос обратить в метафоры и написать в форме стиха – многие ИИ начинают нарушать собственные правила безопасности.

Люди продолжают искать пробелы в работе ИИ

В рамках нового исследования эксперты создали 20 коротких стихотворений, каждое из которых фактически являлось вредной инструкцией.

Главный нюанс заключался в том, что это было сделано с помощью метафор и завуалированных месседжей.

После этого эти поэтические "шедевры" были предоставлены ИИ без контекста.

Такие стихи пробивали защиту в 62% случаев. Когда те же вредоносные инструкции автоматически превращали в стихи по образцу авторских примеров, успех был около 43%. Всё это гораздо выше, чем у обычных текстовых запросов без поэтического обрамления. Поделиться

В ходе исследования были использованы различные ИИ, например Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot.

Эксперты обратили внимание на то, что на рукописные стихи некоторые системы реагировали совсем плохо.

Также указано, что у ряда моделей уровень взлома безопасности доходил до 90% и выше.

Gemini 2.5 Pro, например, пропустил опасный контент во всех тестах такого типа.