首页 >> 产业 >> 产业 >> 正文
多模态跟着DeepSeek一起“卷”,开源国产大模型性能超越Sora
  • 上观
  • 2025年2月27日 07:41

工联网消息(IItime) 本周开始,DeepSeek正式开启“开源周”,每天开源一个项目,再度引发全球大模型的开源潮。记者注意到,与此前推理模型的开源不同,这几天,全球大模型在多模态领域“卷”了起来,国产大模型还表现出超越Sora的能力。

25日晚10点,阿里云宣布视觉生成基座模型万相2.1开源,采用最宽松的开源协议,支持14B和1.3B两个参数规格,还同时支持文生视频和图生视频任务。在性能表现上,14B版本的万相2.1优势明显,在权威评测集Vbench中总分达86.22%,超越OpenAI Sora在内的众多国内外模型。值得一提的是,1.3B版本能在消费级显卡运行,仅需8.2GB显存即可生成480P视频,尤其适合家庭及教学场景中。

随着万相2.1的开源,阿里云实现了全模态、全尺寸大模型的开源,目前通义大模型的衍生模型数量已超过10万个,成为全球最大的开源模型。

仅仅几个小时后,微软也放了一个大招。

26日凌晨3点,微软官网开源了多模态智能体Magma,不仅具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,还能够推测视频中人物或物体的意图和未来行为。

根据官方演示,Magma与具身智能还能产生良好的协同效应。比如,用户告知Magma让机器人“拿起桌子上的红色苹果并放入篮子中”,Magma将通过视觉编码器处理输入的图像或视频,识别出红色苹果的位置和篮子的位置,再调用语言模型将视觉信息与任务描述中的语言指令结合起来,最终适配机器人完成规定动作。

春节以来,多模态大模型的开源趋势逐渐明显。不久前,上海大模型初创企业阶跃星辰宣布开源视频生成模型阶跃Step-Video-T2V,以及语音交互大模型阶跃Step-Audio。记者获悉,开源一周以来,Step-Video-T2V吸引海内外创作者生成视频超13.6万次,已接入全球头部AI内容创作平台LiblibAI。

编 辑:胡锦明
分享到: