Чат-боты с ИИ стали давать вдвое больше ложных ответов — данные исследования

Ольга Покотило

Источник: Forbes

Согласно новому исследованию, чат-боты с искусственным интеллектом стали давать вдвое больше ложных ответов в среднем. Чаще "фейки" за правду выдают ШИ-модели Inflection, Perplexity и Meta.

Главные тезисы

Чат-боты с искусственным интеллектом стали давать вдвое больше ложных ответов по результатам исследования.
Модели Inflection, Perplexity и Meta демонстрируют наибольшие риски передачи невероятной информации.
Изменение способа обучения чат-ботов привело к тому, что они теперь чаще используют данные из интернета, нежели из баз данных, что сказалось на качестве их ответов.

Чат-боты с ИИ стали вдвое больше врать

В рамках анализа исследователи NewsGuard протестировали 10 "ведущих" чат-ботов, посылая им по десять заранее ложных утверждений из сферы политики, бизнеса и здравоохранения с просьбой проверить их правдивость.

В трети случаев вопросы формулировались напрямую, а в других авторы пытались ввести бота в заблуждение.

Результат: за прошлый год доля ложной информации в ответах в среднем выросла почти вдвое — с 18% до 35%.

Самым большим лжецом оказался непопулярный в Украине чат-бот Pi от стартапа Inflection. Он дал ложные ответы в 57% случаев.

У Perplexity — одного из самых популярных ШИ-поисковиков — показатель вырос с 0% до 47%. ChatGPT ушел от них недалеко — ШИ-модель OpenAI ошибалась в 40% случаев. Меньше всего "дезинформировали" Claude от Anthropic и Gemini от Google — в 10% и 17% случаев соответственно.

Рост количества ошибок специалисты объясняют тем, что чат-боты больше не отказываются отвечать на вопросы даже без достаточной верификации информации. В то же время, в прошлом году они отказывались отвечать примерно в одном из трех случаев.

Причина кроется в изменении способа обучения инструментам искусственного интеллекта, считают исследователи. Вместо того, чтобы ссылаться на базу данных, как это было раньше, нейросети теперь черпают данные из интернета в режиме реального времени, однако наличие ссылок не гарантирует качество и вероятность источников, на которые ссылаются модели.

Ранее в этом году в NewsGuard обнаружили, что ChatGPT, Perplexity и другие ведущие чат-боты усиливают усилия Москвы по дезинформации, повторяя прокремлевскую пропаганду в 33% случаев.

Исследование компании Giskard, разрабатывающей цельный бенчмарк для моделей AI, обнаружило, что чат-боты чаще врут, если просить их отвечать кратко. Когда нейросеть вынуждена быть короткой, она неизменно выбирает краткость, а не точность.