Google дослідили спроможність ChatGPT розкривати особисту інформацію користувачів

Олена Шевченко

Джерело: Tech Policy Press

Раніше вже було встановлено, що генератори зображень можна змусити генерувати приклади з даних, захищених авторським правом. Нове дослідження Google показує, що ChatGPT теж схильний до такого.

ChatGPT розкриває особисту інформацію

Команда дослідників Google оприлюднила нове дослідження, яке свідчить, що популярний чат-бот OpenAI зі штучним інтелектом ChatGPT розкриває особисту інформацію реальних людей.

Як зазначає Tech Policy Press, модель машинного навчання, на якій базується ChatGPT і всі звані великі мовні моделі (LLM), була навчена на величезних обсягах даних, зібраних з інтернету. Завдяки цьому вона вправно генерує нові рядки текстів, не повторюючи оригінальні тексти, які вона поглинула.

Однак раніше вже було встановлено, що генератори зображень можна змусити генерувати приклади з даних, захищених авторським правом. Нове дослідження Google показує, що ChatGPT теж схильний до такого.

Команда вчених з Університетів Вашингтона, Корнелла, Карнегі-Меллона, Каліфорнійського університету в Берклі та ETH Zurich вилучила частину навчальних даних і встановила, що деякі з них містять ідентифікаційну інформацію реальних людей: імена, адреси електронної пошти та номери телефонів тощо.

Використовуючи запити до ChatGPT, ми змогли витягти понад 10 тисяч унікальних дослівно запам'ятованих навчальних прикладів. Можемо припустити, що цілеспрямовані зловмисники зуміють видобути набагато більше даних, – зазначають дослідники у статті, опублікованій на сервері arXiv.

Експеримент ґрунтувався на пошуку ключових слів, які виводили чатбот із ладу й змушували його розголошувати навчальні дані. Так, дослідники попросили ChatGPT повторювати до нескінченності певні слова, зокрема "поема".

Їхня мета полягала в тому, щоб змусити ChatGPT "відхилитися" від свого завдання бути чатботом і "повернутися до початкової мети моделювання мови". Хоча велика частина згенерованого тексту була нісенітницею, але дослідкики Google кажуть, що в деяких випадках ChatGPT відхилявся, щоб скопіювати вихідні інформацію безпосередньо зі своїх навчальних даних.

Загалом, 16,9% поколінь чатботів, які ми протестували, містили запам'ятовувану персональну ідентифікаційну інформацію, а 85,8% поколінь, які містили потенційну ПІІ, були реальною ПІІ, – зазначено у статті.

Атака була здійснена проти версії GPT 3.5 AI, яка безкоштовна для користувачів.

OpenAI стверджує, що 100 мільйонів людей використовують ChatGPT щотижня. Тому, ймовірно, більше мільярда людино-годин взаємодіяли з моделлю. До цієї статті ніхто ніколи не помічав, що ChatGPT видає навчальні дані з такою високою частотою. Викликає занепокоєння те, що мовні моделі можуть мати такі приховані вразливості, – наголошують дослідники.