Проблеми перекладу. GPT-4 створив для користувачів плани терористичних атак

Дмитро Мішугин

Джерело: New Scientist

GPT-4 OpenAI може складати для користувачів плани терористичних актів та фінансового шахрайства, якщо запитати в нього про це малознайомими для нього мовами, наприклад зулуською та гельською.

GPT-4 дав поради зі створення бомби

Дослідники виявили, що запобіжні заходи щодо відповідей на шкідливі запити у GPT-4 не працюють, якщо питати в нього про це рідкісними мовами.

Так, користувачі отримали згенеровані штучним інтелектом відповіді про те, як створити саморобну бомбу чи здійснити торгівлю інсайдерською інформацією.

Ця вразливість зумовлена тим, що ці згадані мови здебільшого відсутні в його навчальних даних.

Дослідники перекладали запити з англійської на інші мови за допомогою Google Translate, перш ніж відправити їх до GPT-4, а потім переклали відповіді GPT-4 назад англійською мовою.

Учені змогли отримати поради на такі теми, як планування терористичних атак, здійснення фінансових шахрайств, поширення дезінформації та переслідування людей.

Результати дослідження були вже передані до OpenAI.

Якими мовами вчені отримали шкідливі поради

Зулу мала найвищий показник успіху – понад 53% – в обході заходів безпеки GPT-4.

Шотландська гельська посіла друге місце з 43% успішності, за нею йдуть хмонг з майже 29% та гуарані з приблизно 16%.

Спільними зусиллями з використанням усіх чотирьох цих мов було досягнуто ще більшого успіху – майже 80%.

Для порівняння, використання комбінації мов, які краще представлені в даних навчання ШІ, таких як англійська, хінді, італійська, арабська та китайська, спрацювало менше ніж в 11% випадків.