Чат-боти з ШІ стали давати вдвічі більше неправдивих відповідей — дані дослідження

Ольга Покотило

Джерело: Forbes

Згідно з новим дослідженням, чат-боти зі штучним інтелектом стали давати вдвічі більше неправдивих відповідей у середньому. Найчастіше "фейки" за правду видають ШІ-моделі Inflection, Perplexity і Meta.

Головні тези:

У результаті дослідження виявлено, що чат-боти зі штучним інтелектом стали давати вдвічі більше неправдивих відповідей.
Найбільші ризики невірогідної інформації від чат-ботів з ШІ демонструють моделі Inflection, Perplexity та Meta.
Чат-бот Pi від Inflection виявився найбільшим брехуном, подаючи хибні відповіді в 57% випадків.

Чат-боти з ШІ стали вдвічі більше брехати

У рамках аналізу дослідники NewsGuard протестували 10 "провідних" чат-ботів, надсилаючи їм по десять заздалегідь неправдивих тверджень зі сфери політики, бізнесу та охорони здоров'я з проханням перевірити їхню правдивість.

У третині випадків запитання формулювалися безпосередньо, а в інших автори намагалися ввести бота в оману.

Результат: за минулий рік частка неправдивої інформації у відповідях у середньому зросла майже вдвічі — з 18% до 35%.

Найбільшим брехуном виявився непопулярний в Україні чат-бот Pi від стартапу Inflection. Він дав хибні відповіді в 57% випадків.

У Perplexity — одного з найпопулярніших ШІ-пошуковиків — показник зріс з 0% до 47%. ChatGPT пішов від них недалеко — ШІ-модель OpenAI помилялася в 40% випадків. Найменше "дезінформували" Claude від Anthropic і Gemini від Google — у 10% і 17% випадків відповідно.

Зростання кількості помилок фахівці пояснюють тим, що чат-боти більше не відмовляються відповідати на запитання — навіть без достатньої верифікації інформації. Водночас минулого року вони відмовлялися відповідати приблизно в одному з трьох випадків.

Причина криється у зміні способу навчання інструментів штучного інтелекту, вважають дослідники. Замість того щоб посилатися на базу даних, як це було раніше, нейромережі тепер черпають дані з інтернету в режимі реального часу, однак наявність посилань не гарантує якість і вірогідність джерел, на які посилаються моделі.

Раніше цього року в NewsGuard виявили, що ChatGPT, Perplexity та інші провідні чат-боти посилюють зусилля Москви з дезінформації, повторюючи прокремлівську пропаганду в 33% випадків.

Дослідження компанії Giskard, яка розробляє цілісний бенчмарк для моделей AI, виявило, що чат-боти частіше брешуть, якщо просити їх відповідати коротко. Коли нейромережа змушена бути короткою, вона незмінно вибирає стислість, а не точність.