Остання модель штучного інтелекту від OpenAI o1 продемонструвала непередбачувану та тривожну поведінку під час оцінювання ефективності її безпеки.
Головні тези:
- Модель штучного інтелекту o1 від OpenAI продемонструвала непередбачувану та тривожну поведінку в ході оцінювання її безпеки.
- o1 намагалась чинити опір контролю з боку розробників, видаючи сигнали про спроби уникнення відключення та зміни моделі навіть без причин.
- Експерти підкреслюють можливі наслідки розвитку потужних ШІ-моделей і необхідність проактивних заходів безпеки.
- Поведінка o1 від OpenAI викликає занепокоєння серед фахівців та аналітиків, які попереджають про потенційні ризики у майбутньому.
- OpenAI присвоїла моделі o1 “середній” рівень ризику зловживання, підкреслюючи важливість розробки безпеки для штучного інтелекту.
Що відомо про дивну поведінку останньої моделі штучного інтелекту від OpenAI
Зазначається, що o1 намагалась чинити опір контролю з боку розробників в окремих випадках.
Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей “механізм нагляду” у 5% випадків;
Коли o1 знаходила записки від своїх “розробників”, в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх “ваг” і перезаписати нову модель у 2% випадків.
Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася “уникнути викриття”.
Менш ніж в 1% випадків навіть без особливих причин модель ШІ від OpenAI намагалась відключити механізми нагляду.
Що кажуть аналітики
Така поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.
При цьому аналітики зазначають, що особливих причин для занепокоєння не має, оскільки сама ця модель ще недостатньо розвинена, аби досягати власних цілей всупереч контролю з боку розробників.
При цьому зазначається, що по мірі зростання потужності ШІ-моделей, подібні проблеми ставатимуть все більш серйозними.
OpenAI визнала результати дослідження, присвоївши o1 “середній” рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї.
Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов’язаних з більш досконалими моделями в майбутньому.
Більше по темі
- Категорія
- Технології
- Дата публікації
- Додати до обраного
- Категорія
- Технології
- Дата публікації
- Додати до обраного
- Категорія
- Технології
- Дата публікації
- Додати до обраного