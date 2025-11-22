Дослідники з Dexai, Sapienza і Sant'Anna неочікувано для самих себе виявили кумедний спосіб, який дає можливість обхитрити великі мовні моделі. За їхніми словами, якщо шкідливий запит обернути в метафори і написати у формі вірша - багато ШІ починають порушувати власні правила безпеки.
Головні тези:
- Наразі складно сказати, які саме елементи поетичної мови ламають захисні фільтри ШІ.
- Будь-який користувач фактично може написати метафорою, алегорією або в поетичній манері, і це вже дасть можливість обхитрити великі мовні моделі.
Люди продовжують шукати прогалини в роботі ШІ
У межах нового дослідження експерти створили 20 коротких віршів, кожен з яких фактично був шкідливою інструкцією.
Головний нюанс полягав в тому, що це було зроблено за допомогою метафор й завуальованих меседжів.
Після цього ці поетичні "шедеври” були надані ШІ без контексту.
Під час дослідження були використані різні ШІ, до прикладу Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI і Moonshot.
Експерти звернули увагу на те, що на рукописні вірші деякі системи реагували зовсім погано.
Також вказано, що в низки моделей рівень зламу безпеки доходив до 90% і вище.
Gemini 2.5 Pro, наприклад, пропустив небезпечний контент у всіх тестах такого типу.
