OpenAI домовилася з видавцями новин щодо навчання ШІ-моделей

Олена Шевченко

Джерело: The Verge

Штучному інтелекту потрібно постійно навчатися. Оскільки якісні безплатні дані вже майже скінчилися в усьому світі, розробникам потрібно шукати нові джерела інформації. Такими стануть ліцензійні тексти. Судячи з усього, OpenAI однією з перших домовилась про офіційне використання захищених матеріалів.

OpenAI пропонує видавцям новин ліцензію

Одними з найперспективніших партнерів на цьому ринку ШІ-компанії вважають видавців новин. Їхні матеріали мають переваги над звичайними текстами в інтернеті, оскільки дотримуються певних правил, структури, грамотності. Крім того, це дозволить алгоритмам навчитися працювати з новинним контентом, зменшивши кількість "галюцинацій", тобто випадків дезінформації, коли ШІ просто вигадує ті чи інші факти.

Цікаво, що деякі видавці новин укладають угоди з компаніями, що займаються штучним інтелектом, щоб навчити власні моделі працювати з новинними сюжетами. Інші ж просто забороняють будь-яке використання своїх текстів для навчання ШІ, але розробку своєї технології не планують.

Загалом індустрія боїться одного: що штучний інтелект одного дня стане настільки вправним у написанні новин, що просто захопить весь ринок і зробить нинішні видання нікому непотрібними.

Але спротив не зупиняє розробників. The Information повідомляє, що OpenAI пропонує від 1 до 5 млн дол на рік за ліцензію на використання захищених авторським правом новинних статей для навчання своїх ШІ-моделей. Це одне з перших свідчень того, скільки ШІ-компанії планують платити за ліцензійні матеріали.

Це відбувається поряд з нещодавнім звітом про те, що Apple шукає партнерів у медіа для використання їхнього контенту для навчання свого неоголошеного ШІ, пропонуючи щонайменше 50 млн дол на багато років уперед.

Важлива угода щодо авторського права

Укладення партнерських угод дозволяє AI-компаніям уникати проблем з авторським правом. Останнім часом це стає все більш поширеною практикою, адже перші версії нейромереж навчалися переважно на інформації з інтернету, яка почала закінчуватись.

Деякі моделі штучного інтелекту не розкривають, як вони отримали свої навчальні дані. Вони створюють вебсканери, які збирають дані в мережі. Така практика стикається з серйозними проблемами.

Наприклад, The New York Times і материнська компанія The Verge, Vox Media, заблокували доступ до даних для ChatGPT, стверджуючи, що навчання на їхніх даних є порушенням авторських прав.

The New York Times також подала до суду на OpenAI і Microsoft за порушення авторських прав, стверджуючи, що ChatGPT і Copilot можуть генерувати вихідні дані майже дослівно до її робіт.

Разом із тим такі видавництва, як Axel Springer – материнська компанія Politico і Business Insider – і The Associated Press підписали угоди з OpenAI про ліцензування їхніх матеріалів для навчання моделей на кшталт GPT-4 і розробки технологій для збору новин.

OpenAI та Apple – не єдині розробники ШІ, які сподіваються на співпрацю з новинними організаціями. Як повідомляється, Google продемонстрував керівникам The New York Times, The Wall Street Journal і The Washington Post інструмент ШІ під назвою Genesis, який збирає факти і видає новини.