FlashVideo:生成1080p视频仅需102秒,字节联合港大推出低成本高分辨率视频生成框架

简介: FlashVideo 是字节跳动和香港大学联合推出的高分辨率视频生成框架,通过两阶段方法显著降低计算成本,快速生成高质量视频。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 FlashVideo 这个由字节跳动和香港大学联合推出的高分辨率视频生成框架。

🚀 快速阅读

FlashVideo 是一个高效的高分辨率视频生成框架,解决了传统单阶段扩散模型在高分辨率视频生成中的计算成本问题。

  1. 核心功能:通过两阶段方法实现高效生成高分辨率视频。
  2. 技术原理:采用参数高效微调(PEFT)技术和流匹配技术,分阶段生成低分辨率和高分辨率视频。

FlashVideo 是什么

FlashVideo 是由字节跳动和香港大学联合推出的一个高效的高分辨率视频生成框架。该框架通过两阶段方法解决了传统单阶段扩散模型在高分辨率视频生成中面临的巨大计算成本问题。

具体来说,FlashVideo 在第一阶段使用 50 亿参数的大型模型在低分辨率(270p)下生成与文本提示高度一致的内容和运动,基于参数高效微调(PEFT)技术确保计算效率。第二阶段通过流匹配技术,将低分辨率视频映射到高分辨率(1080p),仅需 4 次函数评估即可生成细节丰富的高质量视频。

FlashVideo 的主要功能

  • 高效生成高分辨率视频:FlashVideo 通过两阶段框架实现高分辨率视频的快速生成。第一阶段在低分辨率下生成与文本提示高度一致的视频内容,第二阶段则通过流匹配技术将低分辨率视频增强为高分辨率,同时保持细节和运动的一致性。
  • 快速预览与调整:用户可以在全分辨率生成之前预览低分辨率的初步结果,允许用户快速评估生成效果,并在必要时调整输入提示,从而显著减少计算成本和等待时间,提升用户体验。
  • 细节增强与伪影校正:第二阶段专注于细节的精细化处理,能够有效增强小物体的结构和纹理细节,同时校正第一阶段可能产生的伪影,显著提升视频的视觉质量。
  • 高效的计算策略:FlashVideo 在保持高质量输出的同时,通过策略性分配模型容量和函数评估次数(NFEs),大幅减少了计算资源的消耗。例如,生成 1080p 视频仅需 102 秒,远低于传统单阶段模型的 2150 秒。

FlashVideo 的技术原理

FlashVideo

  • 两阶段框架设计:FlashVideo 将视频生成过程分为两个阶段:低分辨率阶段(Stage I)和高分辨率阶段(Stage II)。这种设计策略性地分配了模型容量和函数评估次数(NFEs),平衡生成的保真度和质量。
  • 第一阶段(低分辨率阶段)
    • 参数高效微调(PEFT):通过低秩自适应(LoRA)技术对模型进行微调,适应低分辨率生成任务。LoRA 在注意力层、前馈网络(FFN)和自适应层归一化层中应用,显著提高了模型的鲁棒性和效率。
      足够的 NFEs:在低分辨率下保留足够的 NFEs(50 次),确保生成内容的高保真度。
  • 第二阶段(高分辨率阶段)
    • 流匹配技术:通过线性插值在低分辨率和高分辨率潜在表示之间建立映射关系,直接从低质量视频生成高质量视频,避免了从高斯噪声开始的传统扩散过程。
    • 低质量视频模拟:通过像素空间退化(DEGpixel)和潜在退化(DEGlatent)生成低质量视频,训练模型在保持保真度的同时增强细节。
    • 全 3D 注意力机制:确保在显著运动和尺度变化的视频中保持增强视觉细节的一致性。
    • 3D 因果变分自编码器(VAE):将视频像素压缩为潜特征,减少计算复杂度。
    • 3D RoPE(相对位置编码):在高分辨率阶段使用 3D RoPE 替代传统的绝对位置嵌入,提高模型对分辨率的适应性和扩展性。
    • 从粗到细的训练策略:先在低分辨率上进行大规模预训练,再逐步扩展到高分辨率,最后通过少量高质量样本进行微调,以提高模型性能。

如何运行 FlashVideo

1. 环境设置

此代码库已通过 PyTorch 2.4.0+cu121 和 Python 3.11.11 测试。您可以使用以下命令安装必要的依赖项:

pip install -r requirements.txt 

2. 准备检查点

要获取 3D VAE(与 CogVideoX 相同),以及 Stage-I 和 Stage-II 的权重,请按以下步骤操作:

cd FlashVideo mkdir -p ./checkpoints huggingface-cli download --local-dir ./checkpoints FoundationVision/FlashVideo 

检查点应按以下方式组织:

├── 3d-vae.pt ├── stage1.pt └── stage2.pt 

3. 文本到视频生成

Stage-I 和 Stage-II 均仅使用长提示进行训练。为了获得最佳结果,请在提示中包含详细描述。

Jupyter Notebook

您可以通过 Jupyter Notebook 方便地提供用户提示。建议使用具有 80G 容量的单个 GPU。或者,您可能需要调整 VAE 解码器的空间和时间切片。

sat/demo.ipynb 
从包含提示的文本文件生成视频

您可以通过在文本文件中提供用户提示并使用多个 GPU 生成视频。

bash inf_270_1080p.sh 

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
人工智能 安全 数据挖掘
MedRAX:专注于胸部X光检查的AI医学推理智能体,帮助医生快速解读胸部X光片
MedRAX 是一款专门用于胸部X光检查的医学推理AI智能体,整合了多种最先进的分析工具,支持多模态推理和动态任务分解。
520 10
MedRAX:专注于胸部X光检查的AI医学推理智能体,帮助医生快速解读胸部X光片
|
9月前
|
存储 人工智能 算法
Magic 1-For-1:北大联合英伟达推出的高质量视频生成量化模型,支持在消费级GPU上快速生成
北京大学、Hedra Inc. 和 Nvidia 联合推出的 Magic 1-For-1 模型,优化内存消耗和推理延迟,快速生成高质量视频片段。
422 3
Magic 1-For-1:北大联合英伟达推出的高质量视频生成量化模型,支持在消费级GPU上快速生成
|
9月前
|
数据采集 机器学习/深度学习 人工智能
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型,支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。
1171 92
SkyReels-V1:短剧AI革命来了!昆仑开源视频生成AI秒出影视级短剧,比Sora更懂表演!
|
9月前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
5828 119
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
7月前
|
人工智能 计算机视觉
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
MagicColor是香港科技大学推出的多实例线稿着色框架,基于扩散模型和自监督训练策略,实现单次前向传播完成多实例精准着色,大幅提升动画制作和数字艺术创作效率。
571 20
漫画师福音!开源AI神器让线稿着色快如闪电!MagicColor:港科大开源多实例线稿着色框架,一键生成动画级彩图
|
9月前
|
人工智能 安全 机器人
LangBot:无缝集成到QQ、微信等消息平台的AI聊天机器人平台
LangBot 是一个开源的多模态即时聊天机器人平台,支持多种即时通信平台和大语言模型,具备多模态交互、插件扩展和Web管理面板等功能。
1693 14
LangBot:无缝集成到QQ、微信等消息平台的AI聊天机器人平台
|
9月前
|
人工智能 Linux iOS开发
exo:22.1K Star!一个能让任何人利用日常设备构建AI集群的强大工具,组成一个虚拟GPU在多台设备上并行运行模型
exo 是一款由 exo labs 维护的开源项目,能够让你利用家中的日常设备(如 iPhone、iPad、Android、Mac 和 Linux)构建强大的 AI 集群,支持多种大模型和分布式推理。
2025 100
|
9月前
|
人工智能 自然语言处理 数据可视化
AutoAgents:比LangChain更激进的AI开发神器!自然语言生成AI智能体军团,1句话搞定复杂任务
AutoAgents 是基于大型语言模型的自动智能体生成框架,能够根据用户设定的目标自动生成多个专家角色的智能体,通过协作完成复杂任务。支持动态生成智能体、任务规划与执行、多智能体协作等功能。
1512 91
|
9月前
|
人工智能 算法 云计算
0元!使用魔搭免费算力,基于Qwen基座模型,复现DeepSeek-R1
近期,随着DeepSeek-R1爆火,学术界掀起一股复现DeepSeek-R1的浪潮,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。
652 5
|
9月前
|
人工智能 JSON PyTorch
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
TPO(Test-Time Prompt Optimization)框架,通过奖励模型和迭代反馈优化大语言模型输出,无需训练即可显著提升性能,支持动态对齐人类偏好,降低优化成本。
554 8
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%

热门文章

最新文章

下一篇