Дослідження показало, що чат-боти брешуть частіше за однієї умови: як цього уникнути

Чат-боти частіше брешуть, якщо просити їх бути короткими, — дослідження / фото Techcrunch

Дослідження компанії Giskard, яка розробляє цілісний бенчмарк для моделей AI, показало, що якщо попросити у чат-бота бути коротким, у нього може виникнути більше галюцинацій, ніж зазвичай.

У повідомленні в блозі йдеться про те, що це особливо актуально для провідних моделей, таких як GPT-4o від OpenAI, Mistral Large і Claude 3.7 Sonnet, які зазнають труднощів зі збереженням точності, коли їх просять відповісти коротко.

Вчені припускають, що короткі відповіді не дають нейромережам «простору» для уточнень, спростувань і роз’яснень, що критично для завдань, пов’язаних із фактичною достовірністю. Інакше кажучи, сильні спростування вимагають довших пояснень.

Відео дня

«Коли моделі змушені бути короткими, вони незмінно вибирають стислість, а не точність, – пишуть дослідники. «Можливо, найважливіше для розробників те, що, здавалося б, невинні системні підказки на кшталт «будьте стислі» можуть саботувати здатність моделі розвінчувати дезінформацію».

Дослідження Giskard містить й інші цікаві відкриття, наприклад, що моделі ШІ частіше залишають без спростування спірні твердження, якщо вони подані впевнено. Це ставить розробників перед вибором між зручністю для користувача і збереженням точності.

Дослідження показало, що чат-боти брешуть частіше за однієї умови: як цього уникнути

Джерело: Giskard

Галюцинації, або надання неправдивих, або фіктивних відповідей, залишаються нерозв’язною проблемою в ШІ. Причому навіть найпросунутіші моделі міркувань, такі як o3 від OpenAI, демонструють вищу частоту галюцинацій порівняно з їхніми попередницями.

Глава NVIDIA вважає, що розв’язання проблем із «галюцинаціями ШІ» займе принаймні кілька років. Люди не повинні сумніватися у відповіді ШІ, задаючись питанням, «галюцинація це чи ні», «розумно це чи ні».

Як УНІАН уже писав, понад 52 тисячі айтішників було звільнено по всьому світу з початку 2025 року. Причина – розвиток штучного інтелекту, який може ефективно виконувати рутинні завдання програмування, включно з написанням коду і тестуванням.

www.unian.ua