我国自研视频大模型面向全球上线_产业

我国自研视频大模型面向全球上线

新华社
作者：魏梦佳
2024年8月2日 10:03

输入文字描述或上传图片，就能生成一段逼真视频。近日，我国自主研发的通用视频大模型Vidu（www.vidu.studio）面向全球正式上线。据悉，这款视频大模型开放文生视频、图生视频两大核心功能，提供4秒和8秒两种时长选择，分辨率最高达1080P，生成一段4秒的视频片段经实测仅需30秒。

图为根据文字描述用Vidu生成的视频画面。（受访者供图）

Vidu由清华大学联合北京生数科技有限公司共同研发，于今年4月在2024中关村论坛年会上首次发布。清华大学人工智能研究院副院长、北京生数科技首席科学家朱军介绍，Vidu具有“长时长、高一致性、高动态性”的特点，可根据文字和图片生成高清视频，且能保持高流畅、高动态的画面效果。截至目前，Vidu可支持一次性生成最长32秒的视频。

“Vidu能模拟真实物理世界，生成细节复杂且符合物理规律的场景，例如合理的光影效果、细腻的人物表情等，还能创造出具有深度和复杂性的超现实主义内容。”朱军说，对于科幻、西部、浪漫、动画等多类型电影，Vidu能生成符合对应风格的画面片段，还能生成影视级特效画面，如烟雾、炫光等效果。

图为根据文字描述用Vidu生成的特效画面。（受访者供图）

据介绍，在动态性方面，Vidu可生成复杂动态镜头，支持大幅度、精准的动作生成，能在画面里实现远景、近景、中景、特写等不同镜头的切换，能直接生成长镜头、追焦、转场等效果。

记者从北京生数科技有限公司获悉，除文生视频和图生视频的两大基础功能外，为了给用户提供更多样化和个性化的视频创作体验，Vidu还上线“动漫风格”和“角色一致性”两大新功能。在“图生视频”板块中，利用“角色一致性”功能，用户可上传人像图或自定义的角色图，通过文字描述就可指定图中角色在任意场景中做任意动作。该功能简化了视频制作流程，也提升了创作自由度。

据悉，操作Vidu无需申请，用户直接使用邮箱注册即可上手体验。Vidu的技术突破源于研发团队在机器学习和多模态大模型方面的长期积累，其核心技术架构由团队在2022年就提出并持续开展自主研发。

编辑：甄清岚

分享到：