OpenAI договорилась с издателями новостей насчет обучения ИИ-моделей

Алена Шевченко

Источник: The Verge

Искусственному интеллекту нужно постоянно учиться. Поскольку качественные бесплатные данные уже почти кончились по всему миру, разработчикам нужно искать новые источники информации. Таковыми станут лицензионные тексты. Судя по всему, OpenAI одним из первых договорилась об официальном использовании защищенных материалов.

OpenAI предлагает издателям новостей лицензию

Одними из перспективных партнеров на этом рынке ИИ-компании считают издателей новостей. Их материалы имеют преимущества над обычными текстами в интернете, поскольку соблюдают определенные правила, структуры, грамотность. Кроме того, это позволит алгоритмам научиться работать с новостным контентом, уменьшив количество "галлюцинаций", то есть случаев дезинформации, когда ИИ просто придумывает те или иные факты.

Интересно, что некоторые новостные издатели заключают соглашения с компаниями, занимающимися искусственным интеллектом, чтобы научить собственные модели работать с новостными сюжетами. Другие просто запрещают любое использование своих текстов для обучения ИИ, но разработку своей технологии не планируют.

В общем, индустрия боится одного: что искусственный интеллект однажды станет настолько ловким в написании новостей, что просто захватит весь рынок и сделает нынешние издания никому ненужными.

Но сопротивление не останавливает разработчиков. The Information сообщает, что OpenAI предлагает от 1 до 5 млн долл в год за лицензию на использование защищенных авторским правом новостных статей для обучения своих ИИ-моделей. Это одно из первых свидетельств того, сколько ИИ компании планируют платить за лицензионные материалы.

Это происходит наряду с недавним отчетом о том, что Apple ищет партнеров в медиа для использования их контента для обучения своему необъявленному ИИ, предлагая по меньшей мере 50 млн долл на много лет вперед.

Важное соглашение по авторскому праву

Заключение партнерских соглашений позволяет AI-компаниям избегать проблем с авторским правом. В последнее время это становится все более распространенной практикой, ведь первые версии нейросетей учились преимущественно на заканчивающейся информации из интернета.

Некоторые модели искусственного интеллекта не раскрывают, как они получили свои обучающие данные. Они создают веб-сканеры, собирающие данные в сети. Такая практика сталкивается с серьезными проблемами.

К примеру, The New York Times и материнская компания The Verge, Vox Media, заблокировали доступ к данным для ChatGPT, утверждая, что обучение на их данных является нарушением авторских прав.

The New York Times также подала в суд OpenAI и Microsoft за нарушение авторских прав, утверждая, что ChatGPT и Copilot могут генерировать исходные данные почти дословно до ее работ.

Вместе с тем такие издательства как Axel Springer – материнская компания Politico и Business Insider – и The Associated Press подписали соглашения с OpenAI о лицензировании их материалов для обучения моделей вроде GPT-4 и разработки технологий для сбора новостей.

OpenAI и Apple – не единственные разработчики ИИ, надеющиеся на сотрудничество с новостными организациями. Как сообщается, Google продемонстрировал руководителям The New York Times, The Wall Street Journal и The Washington Post инструмент ИИ под названием Genesis, собирающий факты и издающий новости.