GPT-4 OpenAI може складати для користувачів плани терористичних актів та фінансового шахрайства, якщо запитати в нього про це малознайомими для нього мовами, наприклад зулуською та гельською.
GPT-4 дав поради зі створення бомби
Дослідники виявили, що запобіжні заходи щодо відповідей на шкідливі запити у GPT-4 не працюють, якщо питати в нього про це рідкісними мовами.
Так, користувачі отримали згенеровані штучним інтелектом відповіді про те, як створити саморобну бомбу чи здійснити торгівлю інсайдерською інформацією.
Ця вразливість зумовлена тим, що ці згадані мови здебільшого відсутні в його навчальних даних.
Дослідники перекладали запити з англійської на інші мови за допомогою Google Translate, перш ніж відправити їх до GPT-4, а потім переклали відповіді GPT-4 назад англійською мовою.
Результати дослідження були вже передані до OpenAI.
Якими мовами вчені отримали шкідливі поради
Зулу мала найвищий показник успіху – понад 53% – в обході заходів безпеки GPT-4.
Шотландська гельська посіла друге місце з 43% успішності, за нею йдуть хмонг з майже 29% та гуарані з приблизно 16%.
Для порівняння, використання комбінації мов, які краще представлені в даних навчання ШІ, таких як англійська, хінді, італійська, арабська та китайська, спрацювало менше ніж в 11% випадків.
Більше по темі
- Категорія
- Технології
- Дата публікації
- Додати до обраного
- Категорія
- Технології
- Дата публікації
- Додати до обраного
- Категорія
- Україна
- Дата публікації
- Додати до обраного