DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架

简介: DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 DiffSplat 这个由北京大学和字节跳动联合推出的 3D 建模生成框架。

🚀 快速阅读

DiffSplat 是一个高效的 3D 生成框架,能够在 1-2 秒内从文本或图像生成高质量的 3D 高斯点阵。

  1. 核心功能:支持文本和图像条件输入,生成 3D 高斯点阵并确保多视图一致性。
  2. 技术原理:基于大规模预训练的文本到图像扩散模型,结合 3D 渲染损失,确保生成内容在任意视图下的 3D 一致性。

DiffSplat 是什么

DiffSplat

DiffSplat 是由北京大学和字节跳动联合推出的一个新型 3D 生成方法。它能够从文本提示和单视图图像快速生成 3D 高斯点阵(Gaussian Splats),并确保生成的内容在多视图下保持一致性。通过微调预训练的文本到图像扩散模型,DiffSplat 基于强大的 2D 先验知识,引入 3D 渲染损失来确保生成的 3D 内容在任意视图下的一致性。

DiffSplat 的核心优势在于其高效性和灵活性,能够在 1-2 秒内生成高质量的 3D 对象。此外,轻量级的重建模型用于构建结构化的高斯表示,为训练提供了高质量的数据支持。

DiffSplat 的主要功能

  • 从文本或图像生成 3D 高斯点阵:DiffSplat 能直接从文本提示或单视图图像生成 3D 高斯点阵(Gaussian Splats),保持 3D 一致性。
  • 高效利用 2D 先验知识:通过微调大规模文本到图像扩散模型,DiffSplat 有效基于网络规模的 2D 先验知识,同时引入 3D 渲染损失确保生成内容在任意视图下的 3D 一致性。
  • 支持多种条件输入:DiffSplat 支持文本条件、图像条件或两者的组合输入,用户可以根据需要选择合适的条件。
  • 可控生成能力:DiffSplat 可以与 ControlNet 等技术结合,实现基于文本提示和多种格式(如法线图、深度图、Canny 边缘图)的可控 3D 生成。

DiffSplat 的技术原理

  • 基于大规模预训练的文本到图像扩散模型:DiffSplat 通过微调这些模型,直接生成 3D 高斯点阵(Gaussian Splats),有效基于网络规模的 2D 先验知识。
  • 轻量级重建模型:为了启动训练,DiffSplat 提出轻量级的重建模型,能快速生成多视图高斯点阵网格,用于可扩展的数据集构建。
  • 3D 渲染损失:DiffSplat 引入了 3D 渲染损失,确保生成的 3D 内容在任意视图下都能保持一致性。

如何运行 DiffSplat

1. 安装环境

首先,克隆仓库并安装依赖项:

git clone https://github.com/chenguolin/DiffSplat.git cd DiffSplat bash settings/setup.sh 

2. 下载预训练模型

下载预训练模型并存储在 ./out 目录中。其他预训练模型将自动下载并存储在 HuggingFace 缓存目录中。

python3 download_ckpt.py --model_type [MODEL_TYPE] [--image_cond] 

例如,下载 text-cond SD1.5-based DiffSplat 模型:

python3 download_ckpt.py --model_type sd15 

3. 文本条件 3D 对象生成

使用以下命令进行文本条件 3D 对象生成:

bash scripts/infer.sh src/infer_gsdiff_sd.py configs/gsdiff_sd15.yaml gsdiff_gobj83k_sd15__render \ --prompt a_toy_robot --output_video_type gif \ --gpu_id 0 --seed 0 

4. 图像条件 3D 对象生成

使用以下命令进行图像条件 3D 对象生成:

bash scripts/infer.sh src/infer_gsdiff_sd.py configs/gsdiff_sd15.yaml gsdiff_gobj83k_sd15_image__render \ --rembg_and_center --triangle_cfg_scaling --output_video_type gif --guidance_scale 2 \ --image_path assets/grm/frog.png --elevation 20 --prompt a_frog 

5. 使用 ControlNet 进行 3D 对象生成

使用以下命令进行基于 ControlNet 的 3D 对象生成:

bash scripts/infer.sh src/infer_gsdiff_sd.py configs/gsdiff_sd15.yaml gsdiff_gobj83k_sd15__render \ --load_pretrained_controlnet gsdiff_gobj83k_sd15__render__depth \ --output_video_type gif --image_path assets/diffsplat/controlnet/toy_depth.png \ --prompt teddy_bear --elevation 10 

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
321 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
|
9月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
6800 80
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
9月前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
631 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
9月前
|
人工智能 算法 云计算
0元!使用魔搭免费算力,基于Qwen基座模型,复现DeepSeek-R1
近期,随着DeepSeek-R1爆火,学术界掀起一股复现DeepSeek-R1的浪潮,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。
699 5
|
7月前
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
437 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
9月前
|
Swift
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。
847 19
DeepSeek开源Janus-Pro多模态理解生成模型,魔搭社区推理、微调最佳实践
|
9月前
|
人工智能 资源调度 API
AnythingLLM:34K Star!一键上传文件轻松打造个人知识库,构建只属于你的AI助手,附详细部署教程
AnythingLLM 是一个全栈应用程序,能够将文档、资源转换为上下文,支持多种大语言模型和向量数据库,提供智能聊天功能。
6536 76
|
9月前
|
人工智能 测试技术
LIMO:上海交大推出高效推理方法,仅需817条训练样本就能激活大语言模型的复杂推理能力
LIMO 是由上海交通大学推出的一种高效推理方法,通过极少量的高质量训练样本激活大语言模型的复杂推理能力。
359 11
|
9月前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
3589 11
阿里云PAI部署DeepSeek及调用
|
8月前
|
存储 人工智能 编解码
TripoSF:3D建模内存暴降80%!VAST AI新一代模型细节狂飙82%
TripoSF 是 VAST AI 推出的新一代 3D 基础模型,采用创新的 SparseFlex 表示方法,支持 1024³ 高分辨率建模,内存占用降低 82%,在细节捕捉和复杂结构处理上表现优异。
251 10
TripoSF:3D建模内存暴降80%!VAST AI新一代模型细节狂飙82%

热门文章

最新文章

下一篇