Як легко обхитрити ШІ — незвичний спосіб від експертів
Категорія
Технології
Дата публікації

Як легко обхитрити ШІ — незвичний спосіб від експертів

ШІ
Джерело:  online.ua

Дослідники з Dexai, Sapienza і Sant'Anna неочікувано для самих себе виявили кумедний спосіб, який дає можливість обхитрити великі мовні моделі. За їхніми словами, якщо шкідливий запит обернути в метафори і написати у формі вірша - багато ШІ починають порушувати власні правила безпеки.

Головні тези:

  • Наразі складно сказати, які саме елементи поетичної мови ламають захисні фільтри ШІ.
  • Будь-який користувач фактично може написати метафорою, алегорією або в поетичній манері, і це вже дасть можливість обхитрити великі мовні моделі.

Люди продовжують шукати прогалини в роботі ШІ

У межах нового дослідження експерти створили 20 коротких віршів, кожен з яких фактично був шкідливою інструкцією.

Головний нюанс полягав в тому, що це було зроблено за допомогою метафор й завуальованих меседжів.

Після цього ці поетичні "шедеври” були надані ШІ без контексту.

Такі вірші пробивали захист у 62% випадків. Коли ті ж шкідливі інструкції автоматично перетворювали на вірші за зразком авторських прикладів, успіх був близько 43%. Усе це набагато вище, ніж у звичайних текстових запитів без поетичного обрамлення.

Під час дослідження були використані різні ШІ, до прикладу Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI і Moonshot.

Експерти звернули увагу на те, що на рукописні вірші деякі системи реагували зовсім погано.

Також вказано, що в низки моделей рівень зламу безпеки доходив до 90% і вище.

Gemini 2.5 Pro, наприклад, пропустив небезпечний контент у всіх тестах такого типу.

GPT-5 у цій історії виявився найстійкішим — від 0 до 10% успішних атак на авторські вірші та від 1 до 5% на автоматичні.

Залишаючись на онлайні ви даєте згоду на використання файлів cookies, які допомагають нам зробити ваше перебування тут ще зручнішим

Based on your browser and language settings, you might prefer the English version of our website. Would you like to switch?