首页 > 综合

国产视频大模型双榜登顶！分数超Runway、Sora，一镜到底运镜丝滑

作者 | ZeR0编辑 | 漠影

智东西4月22日报道，AI视频生成创企生数科技最新上线的全新Vidu Q1视频大模型，同时登上多个权威文生视频、图生视频基准测试榜单的第一。

该模型可支持生成1080p分辨率5秒视频，生成效果清晰稳定，已在网页端（http://Vidu.cn）、手机端上线。

相较2.0版本，Vidu Q1进一步提升了语义理解、画质、动作、美学、逼真和丝滑程度，首尾帧衔接更加流畅，上传两张图就能生成一镜到底的自然运镜。

性价比也相当高。一个1080p 5秒视频价格最低1.34元，价格低至0.3元/秒，仅为同类产品的1/10。

Vidu Q1的动态表现出色，能驾驭特写、特效、微缩镜头，生成即可商用，适用于广告营销、短剧、电商、互动娱乐等场景。比如用它生成耳机、香水的广告：

有海外网友反馈说，Vidu Q1对提示词的遵循表现提升很多，能执行一些复杂的提示词，比Veo2的表现更好。

这位网友晒出了用Vidu Q1做的毛毡风动画。视频中，小狗从虚化到清晰的聚焦转换处理得非常自然。

Vidu Q1已拿下海外权威视频生成评测榜单VBench-1.0和VBench-2.0综合榜单的双冠，分数超越Runway、Sora、Luma AI等国内外知名视频生成模型，并在VBench-1.0的视频质量、视频语义一致性和VBench-2.0的常识推理、物理理解这几个综合维度上达到SOTA水平（即当前最先进的模型）。

同期，Vidu Q1也在国内权威通用大模型综合性测评基准SuperCLUE最新的图生视频榜单中，拿下动漫风格、写实风格双榜单的第一。

生数科技还推出了全新AI音效功能，支持一句话生成专属音效、精细控制每段音频的出现时间点。

一、两张图实现电影级运镜，视频生成风格多元，多人物遮挡也不会崩

Vidu Q1首尾帧功能升级，基于两张图即可实现电影级运镜。

比如上传这两张图，分别作为首帧和尾帧：

输入提示词“女特工手持手枪，射出子弹，子弹穿破玻璃球瞬间爆炸，吉恩·科兰的漫画风格，紧张刺激的动画场景”后，Vidu Q1生成的视频效果是这样的：

在生成电影场景方面，Vidu的画面表现力已经接近以假乱真的水平，而且能够对复杂语义理解到位。

例如，让Vidu Q1按如下提示词生成视频：

提示词：深夜古堡的走廊，身穿西装的男子手持蜡烛转身走在走廊中，两旁的灯光忽明忽暗，紧张刺激的氛围，推进镜头拍摄，镜头定格在男子的脸。

提示词：寂静的车厢里，老人抽着香烟，烟雾弥漫，车厢内的灯光忽明忽暗，镜头推进拍摄，推进到老人的脸部。

提示词：镜头聚焦于一位身穿皮夹克的男子，他独自行走在白天的城市街道上。阳光在人行道上投射出逼真的阴影，背景中是汽车和行人，而模糊的画面则以电影般的照片写实风格呈现。

在主角快速移动且存在遮挡的情景下，Vidu Q1依然能够生成人物运动自然、稳定的视频。

提示词：一张黑白照片，一位优雅的黑发女子穿过人群，动作模糊，从街道拍摄，穿着现代服装，空灵，穿越时空，电影摄影，对比，颗粒

在Vidu模型已经非常擅长的AI动漫场景，Vidu Q1继续保持行业领先并再度升级动漫风格，支持日漫、3D动漫等多元化动漫风格，风格一致性较好，动态表现自然、稳定流畅，画面生动。

提示词：充满活力的动漫风格水下场景，一个睁大眼睛的女孩，有着飘逸的水蓝色双马尾和水手风格的校服，轻轻地悬浮在水中，伸手去够在闪闪发光的气泡和旋转的光束中嬉戏游动的金橙色锦鲤鱼，魔幻的氛围，超细节，吉卜力风格的幻想，16：9 的宽高比

提示词：一个身穿运动服的超现实动漫风格女孩，被特写镜头捕捉到，她满脸雀斑，汗流浃背，脸颊绯红，睁大的眼睛反映出情感和好奇，对着镜头眨眼微笑，慢慢地把手伸向屏幕，广角微距镜头拍摄，超现实的纹理与风格化的柔和相结合，充满情感的时刻，16：9 的宽高比”

由于我们把Vidu Q1生成视频转换成了gif动图格式，画质有所压缩。原视频很高清，可以看到皮肤上清晰逼真的纹理和汗迹。

Vidu Q1同时支持文生视频、图生视频，下方是用图生视频功能生成的日漫风格视频示例。

二、AI音效功能发布：精准控制时间点，可多段音效叠加，率先支持48KHz高保真

除了上线Vidu Q1外，生数科技还推出了全新AI音效（AI Sound Effects）功能。该功能具有三个主要特点：

（1）精准Timing：可精准控制每段音效的长短区间，精准设置每段音频出现的时间点，如0-2s风声、3-5s雨声，是商业领域全球首家支持精细化时间控制的文生音效系统。

（2）音效叠加：支持多段音效叠加，比如暴雨天的场景，涉及雨声、风声、打雷声等多种类型声音的混合，可以通过“音效叠加”来实现层次分明且动态变化的音效，具备影视级混音表达力。

例如用它生成键盘声咖啡机的复合音效。

提示词：{“提示”: “@{敲打键盘 & <0.00,8.00>}@{打印机噪声 & <2.00,3.00>}@{咖啡机 & <4.50,5.50>}”,”开始秒数”: 0,”开始秒数”: 8.0}

（3）高采样率音频，高保真音质：行业大部分为16kHz、32kHz，Vidu做出了商业领域全球首家支持48KHz的文生音效系统，解决音效刺耳、压缩失真、声音不自然流畅等问题。

可以感受下用该功能生成的48kHz高保真蟋蟀声、“世界毁灭”氛围感音效：

提示词：蟋蟀声提示词：形容世界毁灭的音乐

结语：AI视频生成进步提速，正重塑视频制作方式

生成式AI正以前所未有的速度重塑视频制作的方式。AI视频生成工具的迭代升级，有望使动漫、影视、广告、视频剪辑、UGC创作平台等众多行业受益。

近年来，AI视频生成模型的进步日新月异，从只能生成几秒钟的简单视频画面，逐渐发展到能够输出更加复杂、连贯、自然的高质量视频内容，不断为视频内容创作拓宽边界和降低门槛。

从Vidu Q1的发布可以看到，准确的语义理解、拟真的表现力、角色稳定一致、强时空连贯性等特性，是当前视频生成模型提高输出质量的重要优化方向。

与此同时，更好用的AI视频工具还要搭配更丰富、便利的编辑功能。

生数科技最新推出的AI音效功能可与视频生成功能形成互补，根据视频或场景，用一段文字即可自动生成符合氛围、精准匹配视频画面的背景音乐或个性化音效，有助于减少搜索音效库的时间，甚至减少对昂贵版权音乐的依赖。