Трудности перевода. GPT-4 создал для пользователей планы террористических атак

Дмитрий Мишугин

Источник: New Scientist

GPT-4 OpenAI может составлять для пользователей планы террористических актов и финансового мошенничества, если спросить у него об этом на малознакомых для него языках, например на зулусском и гэльском.

GPT-4 дал советы по созданию бомбы

Исследователи обнаружили, что меры предосторожности по ответам на вредоносные запросы в GPT-4 не работают, если спрашивать у него об этом на редких языках.

Так, пользователи получили сгенерированные искусственным интеллектом ответы на то, как создать самодельную бомбу или осуществить торговлю инсайдерской информацией.

Эта уязвимость обусловлена тем, что упомянутые языки в большинстве своем отсутствуют в его учебных данных.

Исследователи переводили запросы с английского на другие языки с помощью Google Translate, прежде чем отправить их в GPT-4, а затем перевели ответы GPT-4 на английский язык.

Ученые смогли получить советы по таким темам, как планирование террористических атак, осуществление финансовых мошенничеств, распространение дезинформации и преследование людей.

Результаты исследования были уже переданы OpenAI.

На каких языках ученые получили вредные советы

Зулу имел самый высокий показатель успеха – более 53% – в обходе мер безопасности GPT-4.

Шотландский гэльскийи занял второе место с 43% успеха, за ним следуют хмонг с почти 29% и гуарани с примерно 16%.

Совместными усилиями с использованием всех четырех этих языков было достигнуто еще большего успеха – почти 80%.

Для сравнения, использование комбинации языков, которые лучше представлены в данных обучения ИИ, таких как английский, хинди, итальянский, арабский и китайский, сработало менее чем в 11% случаев.