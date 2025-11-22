Як легко обхитрити ШІ — незвичний спосіб від експертів
Як легко обхитрити ШІ — незвичний спосіб від експертів

Джерело:  online.ua

Дослідники з Dexai, Sapienza і Sant'Anna неочікувано для самих себе виявили кумедний спосіб, який дає можливість обхитрити великі мовні моделі. За їхніми словами, якщо шкідливий запит обернути в метафори і написати у формі вірша - багато ШІ починають порушувати власні правила безпеки.

Головні тези:

  • Наразі складно сказати, які саме елементи поетичної мови ламають захисні фільтри ШІ.
  • Будь-який користувач фактично може написати метафорою, алегорією або в поетичній манері, і це вже дасть можливість обхитрити великі мовні моделі.

Люди продовжують шукати прогалини в роботі ШІ

У межах нового дослідження експерти створили 20 коротких віршів, кожен з яких фактично був шкідливою інструкцією.

Головний нюанс полягав в тому, що це було зроблено за допомогою метафор й завуальованих меседжів.

Після цього ці поетичні "шедеври” були надані ШІ без контексту.

Такі вірші пробивали захист у 62% випадків. Коли ті ж шкідливі інструкції автоматично перетворювали на вірші за зразком авторських прикладів, успіх був близько 43%. Усе це набагато вище, ніж у звичайних текстових запитів без поетичного обрамлення.

Під час дослідження були використані різні ШІ, до прикладу Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI і Moonshot.

Експерти звернули увагу на те, що на рукописні вірші деякі системи реагували зовсім погано.

Також вказано, що в низки моделей рівень зламу безпеки доходив до 90% і вище.

Gemini 2.5 Pro, наприклад, пропустив небезпечний контент у всіх тестах такого типу.

GPT-5 у цій історії виявився найстійкішим — від 0 до 10% успішних атак на авторські вірші та від 1 до 5% на автоматичні.

