Microsoft представив інтегровану модель ШІ Magma — чим вона унікальна
Категорія
Технології
Дата публікації

Microsoft представив інтегровану модель ШІ Magma — чим вона унікальна

ШІ
Джерело:  Блог Microsoft

Команда Microsoft Research презентувала Magma — інтегровану модель штучного інтелекту, яка поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.

Головні тези:

  • Модель ШІ Magma від Microsoft поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.
  • Це перша ШІ-модель, яка активно взаємодіє з мультимодальними даними, відкриваючи шлях до створення універсального мультимодального ШІ.
  • Microsoft позиціонує модель Magma як крок до створення агентного ШІ, здатного розробляти плани й виконувати завдання на рівні людини.

Magma є першою ШІ-моделлю, яка активно взаємодіє з мультимодальними даними

Якщо результати тестів підтвердяться поза межами Microsoft, це може стати важливим кроком до створення універсального мультимодального ШІ, здатного працювати як у реальному, так і в цифровому просторі.

Microsoft заявляє, що Magma є першою ШІ-моделлю, яка не лише обробляє мультимодальні дані (текст, зображення, відео), але й здатна активно взаємодіяти з ними: здійснювати навігацію в інтерфейсах або маніпулювати фізичними об’єктами.

Проєкт розроблений у співпраці між дослідниками Microsoft, KAIST, Університетом Меріленда, Університетом Вісконсіна-Медісон та Університетом Вашингтона.

Magma вирізняється від багатьох попередніх мультимодальних систем тим, що об’єднує можливості сприйняття та керування в одну модель. Раніше для кожної з цих функцій використовувалися окремі моделі, але Magma пропонує інтегрований підхід.

Microsoft позиціонує цю модель як крок до створення агентного ШІ — системи, яка не лише взаємодіє з навколишнім середовищем, але й здатна самостійно розробляти плани й виконувати багатокрокові завдання, виконуючи певні функції замість людини.

Можливості Mаgma

Модель Magma використовує два важливі компоненти: Set-of-Mark, що дозволяє ідентифікувати об’єкти, з якими можна взаємодіяти в середовищі, та Trace-of-Mark, що вивчає шаблони руху з відео.

Завдяки цим інноваціям Magma може виконувати завдання, такі як навігація інтерфейсами або керування роботизованими руками для виконання фізичних маніпуляцій. Це робить модель справжнім мультимодальним агентом, а не просто системою сприйняття, як попередні версії.

Залишаючись на онлайні ви даєте згоду на використання файлів cookies, які допомагають нам зробити ваше перебування тут ще зручнішим

Based on your browser and language settings, you might prefer the English version of our website. Would you like to switch?