У Microsoft злякались власної розробки генератора мови на основі ШІ
Категорія
Технології
Дата публікації

У Microsoft злякались власної розробки генератора мови на основі ШІ

Microsoft
Джерело:  arXiv.org

Розробники генератора мови VALL-E 2 з Microsoft бояться випускати власне творіння у масовий доступ через занадто досконалу генерацію людської мови і можливі зловживання. 

Головні тези:

  • Розробники генератора мови VALL-E 2 з Microsoft вражені його досконалістю та рівнем відтворення людського голосу.
  • Microsoft вирішила не робити VALL-E 2 доступним для широкої публіки з огляду на можливі ризики зловживання, наприклад, підробку голосової ідентифікації.
  • Технологія генератора мови VALL-E 2 є першою в своєму роді та перевершує попередні системи за надійністю, природністю та схожістю з дикторами.
  • Якість результатів VALL-E 2 залежить від якості мовних підказок та факторів навколишнього середовища.
  • Хоча Microsoft зараз не планує випускати VALL-E 2 у загальний доступ, технологія штучного інтелекту може знайти практичне застосування в майбутньому.

Чому у Microsoft злякались власної розробки генератора людської мови

За словами розробників, VALL-E 2 переконливо відтворює людські голоси навіть за допомогою кількасекундних аудіозаписів.

Розробники заявляють, що їхня розробка досягла людського рівня відтворення голосів.

Генератор голосу за допомогою ШІ достатньо переконливий, щоб не відрізнити його від людського.

Microsoft навчило ШІ повністю відтворювати людську мову і голоси
Штучний інтелект

На переконання розробників, це відкриває безліч можливостей для шахраїв і інших недобросовісних осіб.

VALL-E 2 – це останнє досягнення в мовних моделях нейронних кодеків, яке знаменує собою важливу віху в синтезі тексту в мовлення (TTS). [...] VALL-E 2 послідовно синтезує високоякісне мовлення, навіть для речень, які традиційно викликають труднощі через свою складність або повторювані фрази, - пояснюють розробники.

Ми вже бачили приклади нейромереж, які вміють клонувати голоси на основі кількасекундного запису, але Microsoft каже, що її технологія перевершує все, що досі виходило на ринок.

Чим відрізняється нова технологія Microsoft

Наші експерименти, проведені на наборах даних LibriSpeech і VCTK, показали, що VALL-E 2 перевершує попередні TTS-системи [...] за надійністю, природністю і схожістю з дикторами. Це перша в своєму роді система, яка досягла паритету з людиною за цими показниками, - цитує видання заяви розробників.

Якість результатів VALL-E 2 залежить від довжини та якості мовних підказок, а також від факторів навколишнього середовища, таких як фоновий шум.

Однак у Microsoft відмовляються випускати VALL-E 2 у широкий доступ.

VALL-E 2 – це суто дослідницький проєкт. Наразі ми не плануємо включати VALL-E 2 в продукт або розширювати доступ до нього для громадськості. Це може нести в собі потенційні ризики зловживання моделлю, наприклад, підробка голосової ідентифікації або видавання себе за конкретного мовця, - пояснюють розробники.

Але вони припускають, що технологія штучного інтелекту може знайти практичне застосування в майбутньому.

Залишаючись на онлайні ви даєте згоду на використання файлів cookies, які допомагають нам зробити ваше перебування тут ще зручнішим

Based on your browser and language settings, you might prefer the English version of our website. Would you like to switch?