OpenAI финансировала разработку математических тестов для o3, не раскрывая своего участия
Организация Epoch AI, разрабатывающая математические тесты для оценки возможностей искусственного интеллекта, оказалась в центре скандала из-за нераскрытого финансирования от OpenAI. Информация о поддержке бенчмарка FrontierMath стала публичной только 20 декабря, одновременно с анонсом модели o3.
По информации Stanford PhD математика Карины Хонг, шесть математиков, внесших значительный вклад в создание FrontierMath, подтвердили, что не знали об эксклюзивном доступе OpenAI к бенчмарку. Большинство из них выразили сомнение в том, что согласились бы на участие, если бы владели этой информацией.
Тамай Бесироглу, заместитель директора Epoch AI, признал ошибку организации в недостаточной прозрачности. По его словам, контракт ограничивал возможность раскрытия информации о партнерстве до запуска o3. Epoch AI заявляет о наличии «устного соглашения» с OpenAI о неиспользовании тестовых задач для обучения модели.
Ситуацию осложняет тот факт, что ведущий математик Epoch AI Эллот Глейзер сообщил о невозможности независимой проверки результатов o3 на FrontierMath. Хотя он лично считает результаты достоверными, официального подтверждения пока нет.
Этот случай поднимает важные вопросы о разработке объективных методов оценки AI и поиске баланса между необходимым финансированием и сохранением независимости тестирования.