新闻中心

邦内高校打制类Sora模子VDT通用视频扩散Transformer被ICLR 2024收受

发布时间：2024-03-21人气：

　　通过上述格式，VDT 模子不但可能无缝地统治无要求视频天生和视频预测职司，还或许通过纯粹地调理输入特质，扩展到更寻常的视频天生界限，如视频帧插值等。这种活络性和可扩展性的呈现，揭示了 VDT 框架的壮健潜力，为来日的视频天生本事供给了新的偏向和或者性。

　　其次，分别于 VDT，Sora 还思量了文本要求的调和。之前也有基于 Transformer 举行文本要求调和的钻研（如 DiT），这里推断 Sora 或者正在其模块中进一步参与了交叉贯注力机制，当然，直接将文本和噪声拼接举动要求输入的办法也是一种潜正在的或者。

　　基于这一思量，钻研者欲望正在视频预测职司进步一步适配和优化他们的模子。视频预测职司也可能视为要求天生，这里给定的要求帧是视频的前几帧。完成视频预测的一种直接格式是将要求帧特质整合到 VDT Block 的层归一化中，犹如于咱们怎样将时刻讯息整合到扩散经过中。

　　比照 Sora 最新宣告的本事申报，可能看到 VDT 和 Sora 正在完成细节上仅存正在极少细小差异。

　　Token 拼接。VDT 模子采用纯粹的 Transformer 架构，是以，直接运用要求帧举动输入 token 对 VDT 来说是更直观的格式。钻研者通过正在 token 级别拼接要求帧（潜正在特质）和噪声帧来完成这一点，然后将其输入到 VDT 中。接下来，他们将 VDT 的输出帧序列支解，并运用预测的帧举行扩散经过，如图 3 (b) 所示。钻研者浮现，这种计划揭示了最疾的收敛速率，与前两种格式比拟，正在最终结果上供给了更优的显示。其余，钻研者浮现尽管正在演练经过中运用固定长度的要求帧，VDT 如故可能接纳自便长度的要求帧举动输入，并输出一律的预测特质。

　　本文为汹涌号作家或机构正在汹涌消息上传并宣告，仅代外该作家或机构见地，不代外汹涌消息的见地或态度，汹涌消息仅供给讯息宣告平台。申请汹涌号请用电脑拜访。

　　这项处事由中邦公民大学钻研团队主导，并与加州大学伯克利分校、香港大学等举行了互助，最早于 2023 年 5 月公然正在 arXiv 网站。钻研团队提出了基于 Transformer 的 Video 团结世成框架 - Video Diffusion Transformer (VDT)，并对采用 Transformer 架构的来由给出了周到的说明。

　　钻研者透露，采用 Transformer 架构的 VDT 模子，正在视频天生界限的出色性呈现正在：

　　唯有当模子练习（或印象）了天下学问（比如空间时刻相合和物理法规）时，能力天生与实际天下相符的视频。是以，模子的容量成为视频扩散的一个要害构成局部。Transformer 曾经被阐明具有高度的可扩展性，好比 PaLM 模子就具有高达 540B 的参数，而当时最大的 2D U-Net 模子巨细仅 2.6B 参数（SDXL），这使得 Transformer 比 3D U-Net 更适合应对视频天生的寻事。

　　钻研者同时查究了天生模子 VDT 对纯粹物理法则的模仿。他们正在 Physion 数据集进步行试验，VDT 运用前 8 帧举动要求帧，并预测接下来的 8 帧。正在第一个示例（顶部两行）和第三个示例（底部两行）中，VDT 凯旋模仿了物理经过，包含一个沿扔物线轨迹运动的球和一个正在平面上滚动并与圆柱体碰撞的球。正在第二个示例（中央两行）中，VDT 搜捕到了球的速率 / 动量，由于球正在碰撞圆柱体前停了下来。这阐明了 Transformer 架构是可能练习到必定的物理法则。

　　VDT 对搜集布局举行局部融解。可能浮现模子机能和 GFlops 强合系，模子布局自己的极少细节反而影响不是很大，这个和 DiT 的浮现也是一律的。

　　交叉贯注力。钻研者还查究了运用交叉贯注力举动视频预测计划，此中要求帧用作键和值，而噪声帧举动盘问。这愿意将要求讯息与噪声帧调和。正在进入交叉贯注力层之前，运用 VAE tokenizer 提取要求帧的特质并 Patch 化。同时，还增加了空间和时刻名望嵌入，以助助咱们的 VDT 练习要求帧中的对应讯息。

　　钻研者还对 VDT 模子举行了极少布局上的融解钻研。结果证据，减小 Patchsize、增添 Layers 的数目以及增大 Hidden Size 都可能进一步降低模子的机能。Temporal 和 Spatial 贯注力的名望以及贯注力头的数目对模子的结果影响不大。正在坚持类似 GFlops 的情景下，必要极少计划上的衡量，总体而言，模子的机能没有明显区别。可是，GFlops 的增添会带来更好的结果，这揭示了 VDT 或者 Transformer 架构的可扩展性。

　　正在 VDT 的钻研过程中，钻研者将 U-Net 这个常用的根源骨干搜集替代为 Transformer。这不但验证了 Transformer 正在视频扩散职司中的有用性，揭示了便于扩展和加强延续性的上风，也激发了他们关于其潜正在价钱的进一步考虑。

　　通过回头 VDT 正在无要求天生和视频预测中的效力，独一的区别正在于输入特质的类型。详细来说，输入可能是纯噪声潜正在特质，或者是要求和噪声潜正在特质的拼接。然后，钻研者引入了 Unified Spatial-Temporal Mask Modeling 来团结要求输入，如下图 4 所示：

　　正在 VDT 的框架下，为了完成视频预测职司，不必要对搜集布局举行任何编削，仅需改革模子的输入即可。这一浮现引出了一个直观的题目：咱们能否进一步操纵这种可扩展性，将 VDT 扩展到更众样化的视频天生职司上 —— 比如图片天生视频 —— 而无需引入任何出格的模块或参数。

　　视频天生界限涵盖了包含无要求天生、视频预测、插值和文本到图像天生等众项职司。以往的钻研往往聚焦于简单职司，不时必要为下逛职司引入特意的模块举行微调。其余，这些职司涉及众种众样的要求讯息，这些讯息正在分别帧和模态之间或者有所分别，这就必要一个或许统治分别输入长度和模态的壮健架构。Transformer 的引入或许完成这些职司的团结。

　　跟着 GPT 模子的凯旋和自回归（AR）模子的通行，钻研者早先查究 Transformer 正在视频天生界限的更深方针使用，考虑其是否能为完成视觉智能供给新的途径。视频天生界限有一个与之亲密合系的职司 —— 视频预测。将预测下一个视频帧举动通往视觉智能的途径这一念法看似纯粹，但它实质上是很众钻研者合伙合切的题目。

　　最先，VDT 采用的是正在时空维度上划分举行贯注力机制统治的格式，而 Sora 则是将时刻和空间维度团结，通过简单的贯注力机制来统治。这种散开贯注力的做法正在视频界限曾经相当常睹，一般被视为正在显存束缚下的一种妥协采选。VDT 采选采用散开贯注力也是出于估量资源有限的思量。Sora 壮健的视频动态才力或者来自于时空集体的贯注力机制。

　　提出团结的时空掩码筑模机制，使 VDT 或许统治众种视频天生职司，完成了本事的寻常使用。VDT 活络的要求讯息统治格式，如纯粹的 token 空间拼接，有用地团结了分别长度和模态的讯息。同时，通过与该处事提出的时空掩码筑模机制联络，VDT 成为了一个通用的视频扩散东西，正在不编削模子布局的情景下可能使用于无要求天生、视频后续帧预测、插帧、图生视频、视频画面补全等众种视频天生职司。

　　输入 / 输出特质。VDT 的倾向是天生一个 F×H×W×3 的视频片断，由 F 帧巨细为 H×W 的视频构成。然而，假若运用原始像素举动 VDT 的输入，加倍是当 F 很大时，将导致估量量极大。为办理这个题目，受潜正在扩散模子（LDM）的启迪，VDT 运用预演练的 VAE tokenizer 将视频投影到潜正在空间中。将输入和输出的向量维度淘汰到潜正在特质 / 噪声的 F×H/8×W/8×C，加快了 VDT 的演练和推理速率，此中 F 帧潜正在特质的巨细为 H/8×W/8。这里的 8 是 VAE tokenizer 的下采样率，C 透露潜正在特质维度。

　　时空 Transformer Block。受到视频筑模中时空自贯注力凯旋的启迪，VDT 正在 Transformer Block 中插入了一个时刻贯注力层，以获取时刻维度的筑模才力。详细来说，每个 Transformer Block 由一个众头时刻贯注力、一个众头空间贯注力和一个全相接前馈搜集构成，如上图所示。

　　将 Transformer 本事使用于基于扩散的视频天生，揭示了 Transformer 正在视频天生界限的远大潜力。VDT 的上风正在于其卓绝的时刻依赖性逮捕才力，或许天生时刻上连贯的视频帧，包含模仿三维对象随时刻的物理动态。

　　与重要为图像计划的 U-Net 分别，Transformer 或许借助其壮健的 token 化和贯注力机制，搜捕永久或违法例的时刻依赖性，从而更好地统治时刻维度。

　　VDT 的测试结果阐明了 Transformer 架构正在统治视频数据天生方面的有用性和活络性。因为估量资源的束缚，VDT 只正在局部小型学术数据集进步行了试验。咱们期望来日钻研或许正在 VDT 的根源上，进一步查究视频天生本事的新偏向和使用，也期望中邦公司能早日推出邦产 Sora 模子。

上一篇：学生習作“醉”正在芙蓉湖

下一篇：旧版云顶国际yd222登录入口库里为什么没有圆柱体？

邦内高校打制类Sora模子VDT通用视频扩散Transformer被ICLR 2024收受

86-769-23836666