Step-Video-T2V: новая модель для генерации видео требует инвестиций в 16 миллионов рублей

Разработчики представили новую опенсорс модель Step-Video-T2V для генерации видео. Модель содержит 30 миллиардов параметров и способна генерировать видеоролики длиной до 204 кадров, используя как английский, так и китайский языки для описания.
Технические особенности:
- Компрессия VAE с коэффициентом 16x16 для пространства и 8x для времени
- Генерация 204 кадров занимает около 12 минут
- Поддержка двух языков (английский и китайский)
- Требуется минимум 80GB видеопамяти
Однако главной особенностью релиза стали впечатляющие системные требования. Для запуска модели необходимо минимум две видеокарты NVIDIA TESLA H100 80GB, стоимость каждой из которых на российском рынке составляет от 7,5 до 8 миллионов рублей. Таким образом, минимальные затраты только на графические ускорители составят 15-16 миллионов рублей, что сопоставимо со стоимостью квартиры в Москве.
Несмотря на открытый исходный код, такие требования делают модель недоступной для большинства независимых разработчиков и энтузиастов. Это указывает на растущий тренд в индустрии AI, где даже открытые решения требуют серьезных инвестиций в инфраструктуру.
Step-Video-T2V демонстрирует, что разрыв между возможностями современных AI-моделей и доступностью необходимого для их работы оборудования продолжает увеличиваться. Это может привести к дальнейшей концентрации разработок в области генерации видео в руках крупных технологических компаний, имеющих необходимые ресурсы для развертывания подобных систем.