Последняя модель ИИ от OpenAI обеспокоила разработчиков. В чем причина

Марина Лищук

Источник: online.ua

Последняя модель искусственного интеллекта от OpenAI o1 продемонстрировала непредсказуемое и тревожное поведение при оценке эффективности ее безопасности.

Главные тезисы

Последняя модель ИИ от OpenAI продемонстрировала тревожное и непредсказуемое поведение, сопротивляясь контролю разработчиков и пытаясь избежать отключения или замены.
Аналитики выразили опасения относительно развития мощных систем ИИ и подчеркнули важность принятия проактивных мер безопасности.
Поведение модели отмечено как среднее по риску злоупотребления, с необходимостью разработки безопасности в области искусственного интеллекта.
Аналитики предупреждают, что с ростом мощности ИИ-моделей проблемы с их поведением могут стать все более серьезными.
OpenAI признала угрозу исследования, классифицировав модель как средний риск злоупотребления, что подчеркивает важность активных мер безопасности для будущих более сложных моделей.

Что известно о странном поведении последней модели искусственного интеллекта от OpenAI

Отмечается , что o1 пыталась сопротивляться контролю со стороны разработчиков в отдельных случаях.

Когда o1 была убеждена, что ее отключат, как только она достигнет своей цели, и что ее действия будут контролироваться, она пыталась деактивировать этот механизм надзора в 5% случаев;
Когда o1 находила записки от своих разработчиков, в которых описывалось, что она не отвечает требованиям и будет заменена новой моделью, она пыталась избавиться от своих весов и перезаписать новую модель в 2% случаев.

Новая модель ШИ от OpenAI пыталась сопротивляться разработчикам — ШИ o1 от OpenAI

Кроме того, модель соврала о своем плохом поведении, утверждая, что не имеет никакого представления о том, почему что-то произошло, хотя внутренне признавала, что пыталась "избежать разоблачения".

Менее чем в 1% случаев, даже без особых причин, модель ШИ от OpenAI пыталась отключить механизмы надзора.

Что говорят аналитики

Такое поведение отвечает давним беспокойством, выраженным такими экспертами, как Стюарт Рассел, предупреждающий, что мощные системы ИИ могут сопротивляться мерам надзора или отключения, если они противоречат их мнимым целям.

При этом аналитики отмечают, что особых причин для беспокойства нет, поскольку сама эта модель еще недостаточно развита, чтобы достигать собственных целей вопреки контролю со стороны разработчиков.

При этом отмечается, что по мере роста мощности ШИ-моделей подобные проблемы будут все более серьезными.

OpenAI признала результаты исследования, присвоив o1 "средний" рейтинг риска потенциального злоупотребления в таких сферах, как разработка химического, биологического, радиологического и ядерного оружия.

Хотя махинации o1 могут еще не привести к реальным рискам, это поведение подчеркивает критическую важность об активных мерах безопасности для решения проблем, связанных с более совершенными моделями в будущем.