多模态跟着DeepSeek一起“卷”，开源国产大模型性能超越Sora_产业

多模态跟着DeepSeek一起“卷”，开源国产大模型性能超越Sora

上观
作者：
2025年2月27日 07:41

工联网消息(IItime) 本周开始，DeepSeek正式开启“开源周”，每天开源一个项目，再度引发全球大模型的开源潮。记者注意到，与此前推理模型的开源不同，这几天，全球大模型在多模态领域“卷”了起来，国产大模型还表现出超越Sora的能力。

25日晚10点，阿里云宣布视觉生成基座模型万相2.1开源，采用最宽松的开源协议，支持14B和1.3B两个参数规格，还同时支持文生视频和图生视频任务。在性能表现上，14B版本的万相2.1优势明显，在权威评测集Vbench中总分达86.22%，超越OpenAI Sora在内的众多国内外模型。值得一提的是，1.3B版本能在消费级显卡运行，仅需8.2GB显存即可生成480P视频，尤其适合家庭及教学场景中。

随着万相2.1的开源，阿里云实现了全模态、全尺寸大模型的开源，目前通义大模型的衍生模型数量已超过10万个，成为全球最大的开源模型。

仅仅几个小时后，微软也放了一个大招。

26日凌晨3点，微软官网开源了多模态智能体Magma，不仅具备跨数字、物理世界的多模态能力，能自动处理图像、视频、文本等不同类型数据，还能够推测视频中人物或物体的意图和未来行为。

根据官方演示，Magma与具身智能还能产生良好的协同效应。比如，用户告知Magma让机器人“拿起桌子上的红色苹果并放入篮子中”，Magma将通过视觉编码器处理输入的图像或视频，识别出红色苹果的位置和篮子的位置，再调用语言模型将视觉信息与任务描述中的语言指令结合起来，最终适配机器人完成规定动作。

春节以来，多模态大模型的开源趋势逐渐明显。不久前，上海大模型初创企业阶跃星辰宣布开源视频生成模型阶跃Step-Video-T2V，以及语音交互大模型阶跃Step-Audio。记者获悉，开源一周以来，Step-Video-T2V吸引海内外创作者生成视频超13.6万次，已接入全球头部AI内容创作平台LiblibAI。

编辑：胡锦明

分享到：