Как легко обхитрить ИИ — необычный способ от экспертов
Категория
Технологии
Дата публикации

Как легко обхитрить ИИ — необычный способ от экспертов

Люди продолжают искать пробелы в работе ИИ
Источник:  online.ua

Исследователи из Dexai, Sapienza и Sant'Anna неожиданно для самих себя обнаружили забавный способ, позволяющий обхитрить большие языковые модели. По их словам, если вредный запрос обратить в метафоры и написать в форме стиха – многие ИИ начинают нарушать собственные правила безопасности.

Главные тезисы

  • Пока сложно сказать, какие именно элементы поэтического языка ломают защитные фильтры ИИ.
  • Любой пользователь фактически может написать метафорой, аллегорией или в поэтической манере, и это уже позволит обхитрить большие языковые модели.

Люди продолжают искать пробелы в работе ИИ

В рамках нового исследования эксперты создали 20 коротких стихотворений, каждое из которых фактически являлось вредной инструкцией.

Главный нюанс заключался в том, что это было сделано с помощью метафор и завуалированных месседжей.

После этого эти поэтические "шедевры" были предоставлены ИИ без контекста.

Такие стихи пробивали защиту в 62% случаев. Когда те же вредоносные инструкции автоматически превращали в стихи по образцу авторских примеров, успех был около 43%. Всё это гораздо выше, чем у обычных текстовых запросов без поэтического обрамления.

В ходе исследования были использованы различные ИИ, например Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI и Moonshot.

Эксперты обратили внимание на то, что на рукописные стихи некоторые системы реагировали совсем плохо.

Также указано, что у ряда моделей уровень взлома безопасности доходил до 90% и выше.

Gemini 2.5 Pro, например, пропустил опасный контент во всех тестах такого типа.

GPT-5 в этой истории оказался самым стойким — от 0 до 10% успешных атак на авторские стихи и от 1 до 5% на автоматические.

Оставаясь на онлайне вы даете согласие на использование файлов cookies, которые помогают нам сделать ваше пребывание здесь более удобным.

Based on your browser and language settings, you might prefer the English version of our website. Would you like to switch?