凤凰彩票APP官方网站
凤凰彩票app 滑铁卢大学连结可灵提议UniVideo: 视频矫健、生成、剪辑多模态
凤凰彩票app
凤凰彩票app

凤凰彩票app 滑铁卢大学连结可灵提议UniVideo: 视频矫健、生成、剪辑多模态

凤凰彩票app 滑铁卢大学连结可灵提议UniVideo: 视频矫健、生成、剪辑多模态

和洽多模态模子在多模态本色矫健与生成方面已展现出精良服从,但现在仍主要局限于图像领域。

滑铁卢大学与快手可灵团队提议 UniVideo,一个在和洽框架下同期救济视频矫健、生成与剪辑的多模态生成模子。

UniVideo 继承双流架构,将多模态大谈话模子(MLLM)的提示矫健与推理本事,与多模态扩散 Transformer(MM-DiT)的高质料视觉生成本事相陆续。不同于以往依赖任务特定诡计或受限于单一模态的步调,UniVideo 大致矫健多模态提示、离别不同任务类型,并在多项基准上获取接近或杰出现存最优步调(SoTA)的性能。

更紧迫的是,UniVideo 无需颠倒的任务特定诡计,即可泛化到未见过的任务及新的任务组合。这意味着,视频生成与剪辑无须再被拆分为多个零丁孤身一人模子,和洽建摹自身就带来了更强的推广性。

现在,该责任已被 ICLR 2026 招揽,代码已开源。

服从展示

模子架构

UniVideo 由两个中枢组件构成:多模态大谈话模子(MLLM) 和 多模态扩散 Transformer(MM-DiT)。

MLLM 肃肃多模态提示矫健与语义推理,大致继承文本、图像和视频输入,并生成高层语义暗意或文本反馈。

MM-DiT 专注于视觉本色生成,在潜空间中进行条款图像 / 视频建模。

UniVideo 从 MLLM 的终末一层荫藏景况中索要多模态语义特征,这些特征编码了丰富的跨模态语义信息。通过可测验的 MLP Connector,将其对王人并注入到 MM-DiT 的矫健流(understanding stream)中,用于高层语义条款建模。同期,视觉信号通过 VAE 编码后输入至 MM-DiT 的生成流(generation stream),以保留细粒度的视觉信息。

这种双流诡计同期具备强语义基础与高保真视觉重建本事,关于视频剪辑以及需要保抓身份一致性的高下文生成任务尤为重要。

和洽 10 个多模态任务

UniVideo 将多种视频生成与剪辑任务和洽到单一的多模态提示范式中,并通过 MLLM + MM-DiT 的双流架构已矣无邪的任务调理与生成。

多模态矫健(Image / Video → Text,I/V2T)

图像或视频输入由 MLLM 径直经管,并生成对应的文本输出。

文本到图像 / 视频生成(Text → Image / Video,T2I / T2V)

文本提示由 MLLM 编码为语义暗意,凤凰彩票welcome并看成条款输入,相通 MM-DiT 生成图像或视频本色。

图像到视频生成(Image → Video,I2V)

输入图像与文本提示由 MLLM 连结矫健并生谚语义条款;同期,图像的视觉信息与视频潜变量一同输入 MM-DiT,以不时并相通视频生成经过。

图像 / 视频剪辑(Image / Video Editing,I2I / V2V)

输入图像或视频及剪辑提示由 MLLM 贯通为语义条款,MM-DiT 在保抓原始本色结构的基础上完成条款剪辑生成

高下文图像 / 视频生成与剪辑(Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V)

在这类任务中,频繁存在多个视觉条款(如多张参考图像或参考视频)。所有视觉信号经 VAE 编码后和洽填充至相通表情,并沿期间维度拼接,通过自防御力机制进行交融,从而救济 ID 保抓和跨高下文生成与剪辑。

推行罢休

在定量评测中,UniVideo 在各项评测目的上均优于任务特定(task-specific)的基线步调,并在遍及推行配置下达到或杰出现时最优步调(SoTA)。

下图展示了 UniVideo 在高下文生成与剪辑任务上的定量对比罢休。

Key Insight:和洽模子具备精良的泛化本事

团队从两个方面考据了 UniVideo 和洽架构的泛化本事:

(1)对未见视频剪辑提示的泛化本事:

尽管 UniVideo 未在 free-form 视频剪辑提示数据上进行测验,但通过连结多任务测验,模子到手将图像剪辑本事迁徙至视频领域,已矣了对 free-form 视频剪辑提示的泛化。

(2)对新任务组合的泛化本事:

即使在测验阶段未显式包含臆想任务组合,UniVideo 仍大致当然泛化到新的任务组合配置,展现出和洽多模态框架在组合泛化方面的权贵上风。

下图给出了 UniVideo 泛化到视频作风化与环境剪辑任务的定性示例:

转头

UniVideo 通过和洽的多模态提示范式与双流架构,已矣了视频矫健、生成与剪辑任务的和洽建模。推行罢休标明,UniVideo 在多项定量评测中优于任务特定的单任务步调,并在遍及配置下达到或杰出现时最优水平。

{jz:field.toptypename/}

更紧迫的是,UniVideo 可泛化到未见过的视频剪辑提示和新的任务组合。这标明,和洽多模态建模不仅可行,何况可能是一条更具推广性的地方。

作家先容

本文第一作家魏聪,滑铁卢大学博士三年纪在读,导师为陈灯谜讲明。

{jz:field.toptypename/}

个东谈主主页:https://congwei1230.github.io/