工联网消息(IItime) 本周开始,DeepSeek正式开启“开源周”,每天开源一个项目,再度引发全球大模型的开源潮。记者注意到,与此前推理模型的开源不同,这几天,全球大模型在多模态领域“卷”了起来,国产大模型还表现出超越Sora的能力。
25日晚10点,阿里云宣布视觉生成基座模型万相2.1开源,采用最宽松的开源协议,支持14B和1.3B两个参数规格,还同时支持文生视频和图生视频任务。在性能表现上,14B版本的万相2.1优势明显,在权威评测集Vbench中总分达86.22%,超越OpenAI Sora在内的众多国内外模型。值得一提的是,1.3B版本能在消费级显卡运行,仅需8.2GB显存即可生成480P视频,尤其适合家庭及教学场景中。
随着万相2.1的开源,阿里云实现了全模态、全尺寸大模型的开源,目前通义大模型的衍生模型数量已超过10万个,成为全球最大的开源模型。
仅仅几个小时后,微软也放了一个大招。
26日凌晨3点,微软官网开源了多模态智能体Magma,不仅具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,还能够推测视频中人物或物体的意图和未来行为。
根据官方演示,Magma与具身智能还能产生良好的协同效应。比如,用户告知Magma让机器人“拿起桌子上的红色苹果并放入篮子中”,Magma将通过视觉编码器处理输入的图像或视频,识别出红色苹果的位置和篮子的位置,再调用语言模型将视觉信息与任务描述中的语言指令结合起来,最终适配机器人完成规定动作。
春节以来,多模态大模型的开源趋势逐渐明显。不久前,上海大模型初创企业阶跃星辰宣布开源视频生成模型阶跃Step-Video-T2V,以及语音交互大模型阶跃Step-Audio。记者获悉,开源一周以来,Step-Video-T2V吸引海内外创作者生成视频超13.6万次,已接入全球头部AI内容创作平台LiblibAI。