Команда Microsoft Research представила Magma — интегрированную модель искусственного интеллекта, объединяющую обработку зрительных и языковых данных для управления программными интерфейсами и роботизированными системами.
Главные тезисы
- Интегрированная модель искусственного интеллекта Magma от Microsoft объединяет обработку зрительных и языковых данных для управления программными интерфейсами и роботизированными системами.
- Модель Magma является первой ШИ-моделью, активно взаимодействующей с мультимодальными данными.
- Microsoft позиционирует проект Magma как шаг к созданию агентного ИИ, который способен разрабатывать планы и выполнять задачи на уровне человека.
Magma является первой ИИ-моделью, активно взаимодействующей с мультимодальными данными
Если результаты тестов подтвердятся вне Microsoft, это может стать важным шагом к созданию универсального мультимодального ИИ, способного работать как в реальном, так и в цифровом пространстве.
Microsoft заявляет, что Magma является первой ШИ-моделью, обрабатывающей не только мультимодальные данные (текст, изображение, видео), но и способной активно взаимодействовать с ними: осуществлять навигацию в интерфейсах или манипулировать физическими объектами.
Проект разработан в сотрудничестве между исследователями Microsoft, KAIST, Университетом Мэриленда, Университетом Висконсина-Мэдисон и Университетом Вашингтона.
Magma отличается от предыдущих мультимодальных систем тем, что объединяет возможности восприятия и управления в одну модель. Раньше для каждой из этих функций использовались отдельные модели, но Magma предлагает встроенный подход.
Microsoft позиционирует эту модель как шаг к созданию агентного ИИ — системы, которая не только взаимодействует с окружающей средой, но способна самостоятельно разрабатывать планы и выполнять многошаговые задачи, выполняя определенные функции вместо человека.

Модель Magma использует два важных компонента: Set-of-Mark, позволяющий идентифицировать объекты, с которыми можно взаимодействовать в среде, и Trace-of-Mark, изучающий шаблоны движения видео.
Благодаря этим инновациям Magma может выполнять задачи, такие как навигация интерфейсами или управление роботизированными руками для выполнения физических манипуляций. Это делает модель настоящим мультимодальным агентом, а не просто системой восприятия как предыдущие версии.
Больше по теме
- Категория
- Экономика
- Дата публикации
- Додати до обраного
- Категория
- Технологии
- Дата публикации
- Додати до обраного
- Категория
- Технологии
- Дата публикации
- Додати до обраного