Команда Microsoft Research презентувала Magma — інтегровану модель штучного інтелекту, яка поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.
Головні тези:
- Модель ШІ Magma від Microsoft поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.
- Це перша ШІ-модель, яка активно взаємодіє з мультимодальними даними, відкриваючи шлях до створення універсального мультимодального ШІ.
- Microsoft позиціонує модель Magma як крок до створення агентного ШІ, здатного розробляти плани й виконувати завдання на рівні людини.
Magma є першою ШІ-моделлю, яка активно взаємодіє з мультимодальними даними
Якщо результати тестів підтвердяться поза межами Microsoft, це може стати важливим кроком до створення універсального мультимодального ШІ, здатного працювати як у реальному, так і в цифровому просторі.
Microsoft заявляє, що Magma є першою ШІ-моделлю, яка не лише обробляє мультимодальні дані (текст, зображення, відео), але й здатна активно взаємодіяти з ними: здійснювати навігацію в інтерфейсах або маніпулювати фізичними об’єктами.
Проєкт розроблений у співпраці між дослідниками Microsoft, KAIST, Університетом Меріленда, Університетом Вісконсіна-Медісон та Університетом Вашингтона.
Magma вирізняється від багатьох попередніх мультимодальних систем тим, що об’єднує можливості сприйняття та керування в одну модель. Раніше для кожної з цих функцій використовувалися окремі моделі, але Magma пропонує інтегрований підхід.
Microsoft позиціонує цю модель як крок до створення агентного ШІ — системи, яка не лише взаємодіє з навколишнім середовищем, але й здатна самостійно розробляти плани й виконувати багатокрокові завдання, виконуючи певні функції замість людини.

Модель Magma використовує два важливі компоненти: Set-of-Mark, що дозволяє ідентифікувати об’єкти, з якими можна взаємодіяти в середовищі, та Trace-of-Mark, що вивчає шаблони руху з відео.
Завдяки цим інноваціям Magma може виконувати завдання, такі як навігація інтерфейсами або керування роботизованими руками для виконання фізичних маніпуляцій. Це робить модель справжнім мультимодальним агентом, а не просто системою сприйняття, як попередні версії.
Більше по темі
- Категорія
- Економіка
- Дата публікації
- Додати до обраного
- Категорія
- Технології
- Дата публікації
- Додати до обраного
- Категорія
- Технології
- Дата публікації
- Додати до обраного