手机也能做音画同步视频了,这才是普通人该用的工具

手机也能做音画同步视频了,这才是普通人该用的工具
大家好,这里是K姐。
一个帮你追踪最新AI应用的女子。
友友们,最近发现千问App又更新啦。这次是创作能力的全面升级,融入了最新图像模型
Qwen-Image-Edit 的生图和改图能力
Wan2.5的音视频能力,一张图片,可以生成会说话、会唱歌、口型精准的高清视频。普通人,不会剪辑,也能直接上手做出完整的短视频内容。
手机也能做音画同步视频了,这才是普通人该用的工具
实测案例
  • case 1 萌宠播客
我们打开千问App,在对话框上传图片,输入提示词就能直接改图。比如,把图片中的主持人变成萌宠。
提示词:把图中的两位主持人换成一只拟人化的橘猫和一只白色萨摩耶,背景不变。
手机也能做音画同步视频了,这才是普通人该用的工具
原图
手机也能做音画同步视频了,这才是普通人该用的工具
改图后
点击底部“AI生视频”,我们可以用这张图片,直接生成音画同步的视频。
手机也能做音画同步视频了,这才是普通人该用的工具
提示词:橘猫和萨摩耶的播客节目,橘猫手舞足蹈地吐槽:他说我们掉毛太多了。萨摩耶边思考边说导:我们还有毛掉,他自己都快秃了。说完它们两对视一眼,开心大笑。

Wan2.5 根据橘猫和萨摩耶的形象,分别生成了不同的音色,并且口型和动作神态完全同步,主体的台词用引号标记,生成的会更准确。我们再试一次,成品也是一次直出:

提示词:橘猫和萨摩耶的播客节目,萨摩耶问:“刚才主人叫你,你听见了吗?”橘猫回答:“我装作没听见,这样她就会给我开罐头。”说完,猫狗一起哈哈大笑。

以往做这类短视频,需要先生成画面、制作配音,再对口型,多主体对话的视频做起来特别麻烦,现在只要提示词说清楚,不到5分钟就能直出完整的视频内容,效率提升非常明显。

  • case2 影视二创
提示词:图1中的角色改变为图2中的姿势。
手机也能做音画同步视频了,这才是普通人该用的工具
手机也能做音画同步视频了,这才是普通人该用的工具
人物一致性保持的非常不错。Qwen-Image-Edit 不仅改变了姿势,还融合了图2中人物的饰品、花臂等特征,而且背景融合的非常自然,没有割裂感。我们继续生成视频:
提示词:图中的男人在舞台中央表演freestyle,一边唱着:“后宫的恩怨情仇,不过是朕茶余饭后的消遣。”一边随着节奏舞动。

Wan2.5 对中文歌词和舞台表演的理解挺到位的,freestyle 的说唱和律动的鼓点都是 AI 自动生成的,人物的口型、动作和说唱的语气都对得上,整体表演很连贯。话筒支架还有一点小瑕疵,不过不影响整体观感。

  • case 3 教学视频
提示词:图中的主体像英语老师一样在教室里讲解黑板上的英文单词。她说到:“黑板上的这个单词是 Rabbit。它的意思是:兔子。跟我一起读,Rabbit。”
手机也能做音画同步视频了,这才是普通人该用的工具

主体的讲解动作和口播节奏完全同步,发音也很标准,可以直接拿来做教学素材。还可以改编成儿歌,唱出来:

提示词:图中的主体像英语老师一样在教室里教大家唱小白兔儿歌,歌曲内容是:“Rabbit,Rabbit,小白兔, 长长耳朵红红眼,白白的毛软软肚。”

主体唱歌的时候,身体和耳朵会自然的摇摆,表情非常自然。

  • case 4 唱跳
提示词:小猫旋转跳跃,并唱着儿歌的旋律:我是最神奇的猫咪.
手机也能做音画同步视频了,这才是普通人该用的工具

模型对卡通角色识别挺准确~音色是比较稚嫩的童声,儿歌旋律纯靠模型自己推理,有点“难听”,但看起来确实好玩。

  • case 5 鬼畜视频
提示词:图片中的小猫用机械抽帧感连续跳重复舞步,双脚高速点地,动作卡顿又魔性,配合节奏感极强的舞蹈,同时用旋律化念唱加轻说唱的方式唱歌:“本来应该从从容容,游刃有余,没想到匆匆忙忙,连滚带爬,睁眼说瞎话,你在哽咽什么啦,你在哭什么哭,没出息”。整体风格鬼畜、荒诞、洗脑。
手机也能做音画同步视频了,这才是普通人该用的工具

小猫的动作节奏非常不错,就连颈部佩戴的绳子也在随节奏同步摆动,细节很加分。不过 Wan2.5 依旧无法识别原曲旋律,但是会基于节奏和风格自行推理旋律,在生成抽象、鬼畜、搞笑视频上很在行。

  • case 6 兵马俑群体舞
提示词:图片中的所有角色一边演唱儿歌,一边整齐地做校园广播体操。演唱内容为:“一二三四,伸伸手,二二三四,弯弯腰,天天运动身体好,我们一起做早操!”歌曲为偏童谣风格,旋律简单、朗朗上口,音域不高,适合集体齐唱;节奏为中慢速 4/4 拍,鼓点清晰稳定,偏进行曲节奏;每一句与动作口令自然对齐。动作包括:抬手、伸展、左右摆臂、弯腰、扩胸运动,幅度规范、有机械一致性,整体呈现校园广播体操的秩序感。所有角色动作节奏缓慢、同步一致,具有校园广播体操的感觉。
手机也能做音画同步视频了,这才是普通人该用的工具

群体动作非常整齐,同时又能和儿歌中的节奏对应,整体表现非常稳。我加入了明确的风格和节奏提示词后,节奏感有明显地提升,生成的音乐也更贴合当前的场景设定,可控性还是很不错的。

手机也能做音画同步视频了,这才是普通人该用的工具
一些分享
千问App这次的核心升级在于:对提示词理解更强了,群体一致性保持的更好。生成的歌曲不是简单地套模板,而是 AI 对音乐的理解,自己推理生成曲调、配乐、音色,和画面中的主体节奏一致,让视频整体更融洽、完整,不需要二次加工。目前来看,千问App 的音视频一体生成能力已经比较成熟。AI 生成的旋律并非我们熟悉的曲调,但正因为这种偏离,反而显得更可爱,也很符合当下玩抽象、玩梗的内容趋势。以 AI 迭代的速度来看,今天只是搞抽象,再过一段时间,千问 App 也许真的会成为一个音乐大师。更重要的是,千问 App 这次升级把内容创作的核心能力,从网页版带到了手机端。以前的图生视频、音画同步,往往需要在电脑上操作,而现在,拿起手机,看到一个有意思的画面、想到一个点子,就能立刻在千问App 把它做成一段完成度很高的视频。这意味着创作开始更贴近日常场景:通勤、碎片时间、随手记录灵感的瞬间,都可以直接成为创作入口。创作者的核心价值,也进一步从制作能力转向创意本身。
© 版权声明

相关文章