
一个帮你追踪最新AI应用的女子。
Qwen-Image-Edit 的生图和改图能力,
Wan2.5的音视频能力,一张图片,可以生成会说话、会唱歌、口型精准的高清视频。普通人,不会剪辑,也能直接上手做出完整的短视频内容。

- case 1 萌宠播客



Wan2.5 根据橘猫和萨摩耶的形象,分别生成了不同的音色,并且口型和动作神态完全同步,主体的台词用引号标记,生成的会更准确。我们再试一次,成品也是一次直出:
以往做这类短视频,需要先生成画面、制作配音,再对口型,多主体对话的视频做起来特别麻烦,现在只要提示词说清楚,不到5分钟就能直出完整的视频内容,效率提升非常明显。
- case2 影视二创


Wan2.5 对中文歌词和舞台表演的理解挺到位的,freestyle 的说唱和律动的鼓点都是 AI 自动生成的,人物的口型、动作和说唱的语气都对得上,整体表演很连贯。话筒支架还有一点小瑕疵,不过不影响整体观感。
- case 3 教学视频

主体的讲解动作和口播节奏完全同步,发音也很标准,可以直接拿来做教学素材。还可以改编成儿歌,唱出来:
主体唱歌的时候,身体和耳朵会自然的摇摆,表情非常自然。
- case 4 唱跳

模型对卡通角色识别挺准确~音色是比较稚嫩的童声,儿歌旋律纯靠模型自己推理,有点“难听”,但看起来确实好玩。
- case 5 鬼畜视频

小猫的动作节奏非常不错,就连颈部佩戴的绳子也在随节奏同步摆动,细节很加分。不过 Wan2.5 依旧无法识别原曲旋律,但是会基于节奏和风格自行推理旋律,在生成抽象、鬼畜、搞笑视频上很在行。
- case 6 兵马俑群体舞

群体动作非常整齐,同时又能和儿歌中的节奏对应,整体表现非常稳。我加入了明确的风格和节奏提示词后,节奏感有明显地提升,生成的音乐也更贴合当前的场景设定,可控性还是很不错的。

© 版权声明
文章版权归作者所有,未经允许请勿转载。