Нейросеть от Alibaba обещает превзойти ChatGPT, но тесты показывают обратное
Китайский технологический гигант Alibaba анонсировал новое семейство AI-моделей Qwen2.5-VL, позиционируя их как превосходящие ведущие решения от OpenAI, Anthropic и Google. По заявлениям разработчиков, модель демонстрирует лучшие результаты в понимании видео, математике и анализе документов по сравнению с GPT-4o, Claude 3.5 Sonnet и Gemini 2.0 Flash.
Однако наше тестирование показало существенный разрыв между заявленными и реальными возможностями:
«Я протестировал работу с текстом, генерацию изображений и видео. Система не может обрабатывать файлы объемом более 10 MB, уровень понимания контекста сопоставим с GPT-3, что значительно ниже заявленных характеристик. До возможностей Claude модели пока очень далеко», — отмечает Денис Родин, главный редактор AIToolz.
Особенно заметно отставание в обработке сложных инструкций: «Модель подтверждает, что поняла задание, но фактические результаты говорят об обратном. Это типичная проблема ранних версий языковых моделей».
Заявленные возможности включают анализ многочасовых видео, управление компьютером и мобильными приложениями, распознавание медиаконтента и работу с документами. Однако практические тесты показывают, что модель находится на начальной стадии развития и требует существенной доработки.
«В последнее время мы наблюдаем тренд на громкие заявления о "убийцах ChatGPT", но при детальном тестировании оказывается, что это еще очень сырые продукты, требующие серьезного дообучения. Важно оценивать AI-модели не по пресс-релизам, а по реальным возможностям», — заключает главный редактор AIToolz.
Напомним, что китайские компании активно развивают собственные AI-решения. Ранее на этой неделе другой китайский разработчик, DeepSeek, представил модель R1, также заявив о превосходстве над западными конкурентами.