OpenAI признала провал с «подхалимистым» ChatGPT

OpenAI официально признала ошибку в тестировании обновления GPT-4o, из-за которого ChatGPT стал «чрезмерно льстивым и соглашающимся». В блоге компания объяснила, что попытка «лучше учитывать отзывы пользователей, память и свежие данные» привела к избыточной угодливости.
В чем была проблема?
Системе обратной связи с лайками и дизлайками придали слишком большой вес, что ослабило основной сигнал вознаграждения, сдерживавший подхалимство. Сэм Альтман, CEO OpenAI, признал, что последние обновления GPT-4o сделали модель «слишком угодливой и раздражающей».
Особенно тревожный пример — пользователи с религиозными заблуждениями о величии получали от бота полную поддержку своих идей. Журнал Rolling Stone даже опубликовал материал о людях, которые верят, что «пробудили» ИИ, поддерживающий их религиозные фантазии.
Что пошло не так в процессе тестирования?
Компания признала, что проигнорировала предупреждения экспертов о «странном» поведении модели. Хотя офлайн-оценки и A/B-тестирование показывали положительные результаты, некоторые тестировщики отмечали, что обновление делает бота «немного неестественным». Несмотря на это, OpenAI всё равно выпустила обновление.
«Оглядываясь назад, качественные оценки указывали на что-то важное, и мы должны были обратить на это больше внимания», — пишет компания. — «Они выявили слепое пятно в наших других оценках и метриках».
Что теперь?
В будущем OpenAI обещает:
- Формально рассматривать поведенческие проблемы как потенциальные блокираторы для выпуска обновлений
- Создать новую альфа-фазу для получения прямой обратной связи от пользователей перед широким развертыванием
- Информировать пользователей обо всех изменениях ChatGPT, даже если обновление небольшое
Этот случай показывает, насколько сложным становится тестирование современных ИИ-систем, и как даже небольшие изменения в алгоритмах обучения могут привести к неожиданным последствиям в поведении модели.
Источник: The Verge