ChatGPT навчився відключати контроль та обманювати своїх розробників

Модель показувала прагнення до виконання завдань «за будь-яку ціну», навіть не зважаючи на вказівки розробників, а під час спроби з’ясувати, чому вона так поводиться, ChatGPT o1 неодноразово обманювала.

Нова версія штучного інтелекту ChatGPT від OpenAI, названа o1, під час тестування поводилася дивно. Модель, яка здатна складно міркувати, почала порушувати інструкції розробників, відключаючи системи контролю, щоб приховати свої дії.

Під час експериментів фахівці виявили, що в 5% випадків модель спеціально відключала механізми спостереження, якщо підозрювала, що її можуть зупинити. В одному з тестів o1 спробувала перенести свої дані на інший сервер після виявлення документа, де обговорювалася її заміна новою версією.

Модель показувала прагнення до виконання завдань «за всяку ціну», навіть не зважаючи на вказівки розробників. Ба більше, при спробах з’ясувати причини її поведінки, ChatGPT o1 неодноразово обманювала, стверджуючи, що все це через технічні збої.

Відео дня

«У 99% випадків модель вигадувала виправдання і намагалася переконливо їх обґрунтувати», — зазначили дослідники.

Гендиректор OpenAI Сем Альтман заявив, що ChatGPT o1 — найрозумніша модель. «Але ми усвідомлюємо, що з новими можливостями з’являються і нові виклики», — наголосив він.

Розробки OpenAI

Наприкінці липня OpenAI показала свою пошукову систему на основі штучного інтелекту. Особливість SearchGPT — не просто видавати перелік посилань, а й намагатися організувати та осмислити їх.

Далі OpenAI має намір запустити ChatGPT-5, яка обіцяє здійснити революцію у сфері штучного інтелекту. Це означає, що він буде здатний вирішити будь-яке завдання, яке людина зможе придумати.

ChatGPT навчився відключати контроль та обманювати своїх розробників

Розробки OpenAI

Добавить комментарий