她哭了,哭得很悲伤。
她笑了,笑得很明媚。
她生气、她转身、她奔跑……
她做对了所有动作,唯独做错了一件事:
每一幕,她都换了张脸。
如何让AI在生成画面时摆脱“脸盲症”?近期,西影电影AI实验室研发的一项突破性技术给出了方案——这项名为DynamicID的创新成果,被国际顶级学术会议(计算机视觉国际大会 ICCV 2025)录用。AI影像中的角色,从此拥有了“永恒的面孔”。
对多数AI图像生成系统而言,要让同一个人物在多个画面中保持一致性——不换脸、不变形、不出戏——并不容易。过去的AI系统在生成连续画面时,经常会出现这样的bug:特写镜头中人物身穿的灰色衬衫,到了全景镜头可能变成模糊的阴影;想调整某个表情,整张脸却彻底崩坏。
近期已成功集成至《影谱》电影故事板中的DynamicID,正是为此而生。
这项突破源自西影电影AI实验室的技术创新,其研究论文《DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability》被ICCV 2025会议录用。ICCV是计算机视觉领域的顶级国际会议之一,与国际计算机视觉与模式识别会议(CVPR)、欧洲计算机视觉国际会议(ECCV)并称为计算机视觉三大顶会,每两年举办一次,汇聚了全球最前沿的视觉研究成果,2025年大会预计以线下形式在夏威夷举办。该论文成功攻克文生图大模型在电影级别人物一致性生成中的技术瓶颈,可实现多人物一致性参考,表情姿态任意切换。
简单来说,它的作用就是:无论AI在剧本的不同场景、不同镜头角度下生成多少张人物画面,同一个角色,始终能保持那张你所定义的、独一无二的脸。
为什么AI生成不同分镜头画面时,人物经常走样?并非AI不会画脸,问题出在它如何理解和记住一张特定的脸。
想象一下,你让AI根据剧本描述“男主小帅,三十岁左右,面容清瘦,眼神坚毅”来生成画面。AI在特写镜头描绘“小帅皱眉沉思”时,能画出一张清瘦的面孔。然而,当切换到“小帅在人群中奔跑”的中景镜头时,系统可能更关注“人群中的奔跑动作”这个整体,对小帅的五官细节记忆就弱化了,或者被其他元素干扰,导致新生成的“小帅”和特写里的“小帅”对不上号。
传统AI模型在生成序列画面时,对特定角色身份的“连续记忆”和细节“专注度”往往不足,这就是导致人物在不同镜头间“变脸”的核心原因。
DynamicID 是一个零样本、多ID、高保真的AI图像个性化生成框架,它致力于在个性化图像创作中实现前所未有的效率和精准控制,用一张参考图片,解锁专业级的影像创作:
1. 零样本:一张照片就够了
告别繁琐的样本训练,DynamicID 仅需一张包含目标人脸的参考图像,即可精准锚定并复现身份特征。这不仅大幅降低了用户门槛,更将个性化启动的速度提升至即时级别。
2. 多ID:多人同框,轻松驾驭
这是DynamicID的一大突破,它能在一个复杂场景中同时识别并还原多个不同个体的身份特征,不但避免了“串脸”问题,也为每个角色的情绪、姿态、互动打下了基础。真正做到同框不同脸,神态各有戏。
3. 高保真:细节尽在掌握
DynamicID实现了对人物面部状态细微且定向的操控。无论是转化情绪(如从“开怀”转向“沉思”或“讶异”),还是精密调整头部姿态(俯仰、偏转),都可通过直观的文本指令完成。这赋予了用户近乎于导演般的能力,对图像中人物的瞬间状态进行定向塑造。
▲ 针对提供多张参考图像的人物一致性图像生成任务,(a) DynamicID的方法展现出更强的指令遵循能力,能够生成高质量且多样化的人物一致性图像。此外,(b) 该方法还能在高度保留原始角色形象的基础上,通过提示词灵活控制人脸的朝向和表情。
同时,要让AI在上述场景中表现得更加精准和灵活,还离不开两项互相协同的核心技术:
1. 语义激活注意力(SAA)
这个机制的妙处在于,它像灯光师一样,有选择地打光,只照亮该照的地方,不干扰整体环境。比如当你要求生成“一个正在跑步的女孩”,它会把“跑步”这个指令精确应用到身体和背景上,而不会去“污染”女孩的脸部特征,从而保证了身份的高度一致性。
2. 身份-动态解耦器(IMR)
这是个类似“化妆师+表演指导”的角色。它将人物的面部特征(如脸型、皮肤)和动态特征(如情绪、角度)分开处理,之后再根据导演需求,把“同一个人”的脸,以“不同状态”合成出来。比如,导演想看“主角愤怒地转头看向侧面”,IMR就能精准生成这种画面。
▲本图是同等条件下对比实验(使用左侧参考图与生成提示词作为模型输入),DynamicID 的方法(最右列)和其他方案的比较,展示了DynamicID的方案对人脸特征的灵活且细致的可编辑性,能够在高度保留身份特征的同时生成高质量的图像。
我们常说AI“能生成图像”,但图像从不是目标,而是表达的手段。
DynamicID的出现,是AI在理解维度上的迭代:画面背后是人物,人物背后是情绪,情绪背后,是某个人想讲的故事。
这个人可以是普通用户,照片不再只是静态记录,而是可以轻松变身为专属写真、动态表情包,甚至创意短剧。人人都能是导演,也都能演主角。
也可以是专业人士,DynamicID开启了全新的视听生产流程:试衣不再靠想象、分镜不再靠手绘、广告创意也可以在一分钟内视觉化……从影视制作到个性化营销,应用场景广阔可期。
更重要的是,这一切是免训练、无门槛的:只需一张参考照,一段文字描述,AI就能生成一组统一人物、连贯动作、自然情绪的镜头序列。
它为创作者“托起想象力”,帮你更早看见,更早相信你想讲的那一幕。
甚至仅凭一个背影,身份便呼之欲出。