凤凰彩票APP官方网站

凤凰彩票app 滑铁卢大学连结可灵提议UniVideo: 视频矫健、生成、剪辑多模态

凤凰彩票app

凤凰彩票app

凤凰彩票app

你的位置：凤凰彩票APP官方网站 > 凤凰彩票app >

凤凰彩票app 滑铁卢大学连结可灵提议UniVideo: 视频矫健、生成、剪辑多模态

凤凰彩票app 滑铁卢大学连结可灵提议UniVideo: 视频矫健、生成、剪辑多模态

和洽多模态模子在多模态本色矫健与生成方面已展现出精良服从，但现在仍主要局限于图像领域。

滑铁卢大学与快手可灵团队提议 UniVideo，一个在和洽框架下同期救济视频矫健、生成与剪辑的多模态生成模子。

UniVideo 继承双流架构，将多模态大谈话模子（MLLM）的提示矫健与推理本事，与多模态扩散 Transformer（MM-DiT）的高质料视觉生成本事相陆续。不同于以往依赖任务特定诡计或受限于单一模态的步调，UniVideo 大致矫健多模态提示、离别不同任务类型，并在多项基准上获取接近或杰出现存最优步调（SoTA）的性能。

更紧迫的是，UniVideo 无需颠倒的任务特定诡计，即可泛化到未见过的任务及新的任务组合。这意味着，视频生成与剪辑无须再被拆分为多个零丁孤身一人模子，和洽建摹自身就带来了更强的推广性。

现在，该责任已被 ICLR 2026 招揽，代码已开源。

服从展示

模子架构

UniVideo 由两个中枢组件构成：多模态大谈话模子（MLLM）和多模态扩散 Transformer（MM-DiT）。

MLLM 肃肃多模态提示矫健与语义推理，大致继承文本、图像和视频输入，并生成高层语义暗意或文本反馈。

MM-DiT 专注于视觉本色生成，在潜空间中进行条款图像 / 视频建模。

UniVideo 从 MLLM 的终末一层荫藏景况中索要多模态语义特征，这些特征编码了丰富的跨模态语义信息。通过可测验的 MLP Connector，将其对王人并注入到 MM-DiT 的矫健流（understanding stream）中，用于高层语义条款建模。同期，视觉信号通过 VAE 编码后输入至 MM-DiT 的生成流（generation stream），以保留细粒度的视觉信息。

这种双流诡计同期具备强语义基础与高保真视觉重建本事，关于视频剪辑以及需要保抓身份一致性的高下文生成任务尤为重要。

和洽 10 个多模态任务

UniVideo 将多种视频生成与剪辑任务和洽到单一的多模态提示范式中，并通过 MLLM + MM-DiT 的双流架构已矣无邪的任务调理与生成。

多模态矫健（Image / Video → Text，I/V2T）

图像或视频输入由 MLLM 径直经管，并生成对应的文本输出。

文本到图像 / 视频生成（Text → Image / Video，T2I / T2V）

文本提示由 MLLM 编码为语义暗意，凤凰彩票welcome并看成条款输入，相通 MM-DiT 生成图像或视频本色。

图像到视频生成（Image → Video，I2V）

输入图像与文本提示由 MLLM 连结矫健并生谚语义条款；同期，图像的视觉信息与视频潜变量一同输入 MM-DiT，以不时并相通视频生成经过。

图像 / 视频剪辑（Image / Video Editing，I2I / V2V）

输入图像或视频及剪辑提示由 MLLM 贯通为语义条款，MM-DiT 在保抓原始本色结构的基础上完成条款剪辑生成

高下文图像 / 视频生成与剪辑（Multi-ID2I / Multi-ID2V / ID-I2I / ID-V2V）

在这类任务中，频繁存在多个视觉条款（如多张参考图像或参考视频）。所有视觉信号经 VAE 编码后和洽填充至相通表情，并沿期间维度拼接，通过自防御力机制进行交融，从而救济 ID 保抓和跨高下文生成与剪辑。

推行罢休

在定量评测中，UniVideo 在各项评测目的上均优于任务特定（task-specific）的基线步调，并在遍及推行配置下达到或杰出现时最优步调（SoTA）。

下图展示了 UniVideo 在高下文生成与剪辑任务上的定量对比罢休。

Key Insight：和洽模子具备精良的泛化本事

团队从两个方面考据了 UniVideo 和洽架构的泛化本事：

（1）对未见视频剪辑提示的泛化本事：

尽管 UniVideo 未在 free-form 视频剪辑提示数据上进行测验，但通过连结多任务测验，模子到手将图像剪辑本事迁徙至视频领域，已矣了对 free-form 视频剪辑提示的泛化。

（2）对新任务组合的泛化本事：

即使在测验阶段未显式包含臆想任务组合，UniVideo 仍大致当然泛化到新的任务组合配置，展现出和洽多模态框架在组合泛化方面的权贵上风。

下图给出了 UniVideo 泛化到视频作风化与环境剪辑任务的定性示例：

转头

UniVideo 通过和洽的多模态提示范式与双流架构，已矣了视频矫健、生成与剪辑任务的和洽建模。推行罢休标明，UniVideo 在多项定量评测中优于任务特定的单任务步调，并在遍及配置下达到或杰出现时最优水平。

{jz:field.toptypename/}

更紧迫的是，UniVideo 可泛化到未见过的视频剪辑提示和新的任务组合。这标明，和洽多模态建模不仅可行，何况可能是一条更具推广性的地方。

作家先容

本文第一作家魏聪，滑铁卢大学博士三年纪在读，导师为陈灯谜讲明。

{jz:field.toptypename/}

个东谈主主页：https://congwei1230.github.io/

下一篇：凤凰彩票 AI智能衣着硬件能何如作念? 紫光展锐、小寻、大一又(DPVR)深度访谈上一篇：凤凰彩票官方网站外媒发布卫星像片，裸露伊朗总统府建造遭袭前后对比

友情链接：

Copyright © 1998-2026 凤凰彩票APP官方网站™版权所有

cq-fenghuang.com 备案号备案号:

技术支持:®凤凰彩票 RSS地图 HTML地图

凤凰彩票APP官方网站

返回顶部

返回顶部