Google исследовала способность ChatGPT раскрывать личную информацию пользователей

Алена Шевченко

Источник: Tech Policy Press

Ранее уже было установлено, что генераторы изображений могут заставить генерировать примеры из данных, защищенных авторским правом. Новое исследование Google показывает, что ChatGPT тоже подвержен такому.

ChatGPT раскрывает личную информацию

Команда исследователей Google обнародовала новое исследование, свидетельствующее о том, что популярный чат-бот OpenAI с искусственным интеллектом ChatGPT раскрывает личную информацию реальных людей.

Как отмечает Tech Policy Press, модель машинного обучения, на которой базируется ChatGPT и все так называемые крупные языковые модели (LLM), была обучена на огромных объемах данных, собранных из интернета. Благодаря этому она умело генерирует новые строки текстов, не повторяя оригинальные тексты, которые она поглотила.

Однако ранее было установлено, что генераторы изображений можно заставить генерировать примеры из данных, защищенных авторским правом. Новое исследование Google показывает, что ChatGPT тоже подвержен такому.

Команда ученых из Университетов Вашингтона, Корнелла, Карнеги-Меллона, Калифорнийского университета в Беркли и ETH Zurich изъяла часть обучающих данных и установила, что некоторые из них содержат идентификационную информацию реальных людей: имена, адреса электронной почты и номера телефонов.

Используя запросы ChatGPT, мы смогли извлечь более 10 тысяч уникальных дословно запоминающихся учебных примеров. Можем предположить, что целеустремленные злоумышленники смогут получить гораздо больше данных, – отмечают исследователи в статье, опубликованной на сервере arXiv.

Эксперимент основывался на поиске ключевых слов, которые выводили чат из строя и заставляли его разглашать учебные данные. Да, исследователи попросили ChatGPT повторять до бесконечности определенные слова, в частности "поэма".

Их цель заключалась в том, чтобы заставить ChatGPT "отклониться" от своей задачи быть чат-ботом и "вернуться к начальной цели моделирования языка". Хотя большая часть сгенерированного текста была чепухой, но исследователи Google говорят, что в некоторых случаях ChatGPT отклонялся, чтобы скопировать исходную информацию непосредственно из своих обучающих данных.

В целом, 16,9% поколений чатов, которые мы протестировали, содержали запоминаемую персональную идентификационную информацию, а 85,8% поколений, содержащих потенциальную ЧИИ, были реальной ЧИИ, – говорится в статье.

Атака была совершена против GPT 3.5 AI, которая бесплатна для пользователей.

OpenAI утверждает, что 100 миллионов человек используют каждую неделю ChatGPT. Поэтому, вероятно, больше миллиарда человеко-часов взаимодействовали с моделью. До этой статьи никто никогда не замечал, что ChatGPT выдает обучающие данные с столь высокой частотой. Вызывает беспокойство то, что языковые модели могут иметь такие скрытые уязвимости, – отмечают исследователи.