InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

简介: InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:InvSR 通过扩散模型的逆过程恢复高分辨率图像,提升图像分辨率。
  2. 技术:基于扩散模型框架,利用深度噪声预测器和灵活的采样机制,支持任意数量的采样步骤。
  3. 应用:适用于老旧照片修复、视频监控、医疗成像等多个领域,提升图像清晰度。

正文(附运行示例)

InvSR 是什么

公众号: 蚝油菜花 - InvSR

InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它利用大型预训练扩散模型中的丰富图像先验知识,通过深度噪声预测器来估计正向扩散过程中所需的最优噪声图。这种方法不仅能够充分利用扩散模型的先验知识,还提供了灵活高效的采样机制,用户可以根据图像退化的类型或特定需求自由调整采样步骤。

InvSR 的核心在于其深度噪声预测器,该预测器能够估计出在正向扩散过程中所需的最优噪声图。通过这种方式,InvSR 能够在减少采样步骤的情况下,依然保持或超越现有方法的性能,实现计算效率的提升。

InvSR 的主要功能

  • 图像超分辨率提升:主要功能是提高图像的分辨率,从低分辨率图像恢复出高分辨率图像。
  • 灵活的采样机制:支持从一到五个任意数量的采样步骤,用户可以根据图像退化类型或特定需求调整采样步骤。
  • 噪声预测:深度噪声预测器估计最优噪声图,用于初始化扩散模型的采样过程。
  • 扩散模型利用:充分利用预训练的扩散模型中的图像先验知识,提高超分辨率的性能。
  • 高效计算:即使在减少采样步骤的情况下,也能保持或超越现有方法的性能,实现计算效率的提升。

InvSR 的技术原理

  • 扩散模型框架:基于扩散模型(如 DDPM),逐步添加噪声将高分辨率图像转化为低分辨率图像的随机噪声图。
  • 部分噪声预测策略:构建扩散模型的中间状态作为起始采样点,简化从低分辨率到高分辨率的反转过程。
  • 深度噪声预测器:核心组件之一,用于估计正向扩散过程中的最优噪声图,从而在扩散轨迹上部分初始化采样过程。
  • 逆向扩散过程:从噪声图开始,通过逆向扩散过程逐步去除噪声,恢复出高分辨率图像。
  • 灵活的采样步骤:选择不同的起始采样点,并结合现有的采样算法,实现不同数量的采样步骤,适应不同的图像退化情况。
  • 训练与优化:通过最小化预测高分辨率图像与真实高分辨率图像之间的差异来训练噪声预测器,使用 L2 损失、LPIPS 损失和 GAN 损失进行训练,优化性能。

如何运行 InvSR

快速测试

python inference_invsr.py -i [image folder/image path] -o [result folder] --num_steps 1 
  1. 处理大图像:例如从 1k 分辨率提升到 4k,建议添加选项 --chopping_size 256
  2. 其他选项
    • 指定预下载的 SD Turbo 模型:--sd_path
    • 指定预下载的噪声预测器:--started_ckpt_path
    • 采样步骤数量:--num_steps
    • 如果 GPU 内存有限,请添加选项 --chopping_bs 1

在线 Demo

你可以通过以下命令尝试在线 Demo:

python app.py 

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 传感器 编解码
Real-ESRGAN超分辨网络
Real-ESRGAN超分辨网络
870 1
|
机器学习/深度学习 编解码
ICCV 2023 超分辨率(Super-Resolution)论文汇总
ICCV 2023 超分辨率(Super-Resolution)论文汇总
846 0
|
机器学习/深度学习 并行计算 PyTorch
TensorRT部署系列 | 如何将模型从 PyTorch 转换为 TensorRT 并加速推理?
TensorRT部署系列 | 如何将模型从 PyTorch 转换为 TensorRT 并加速推理?
1880 0
|
10月前
|
机器学习/深度学习 编解码 人工智能
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。
1904 13
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
|
机器学习/深度学习 Web App开发 编解码
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
|
机器学习/深度学习 编解码 算法
超分辨率相关的开源项目
该文档介绍了多种超分辨率模型及其GitHub项目地址,包括Real-ESRGAN(优化真实图片质量)、RCAN(基于残差结构与通道注意力机制)、SwinIR(基于Swin Transformer的图像恢复)、FSRCNN(轻量级快速超分辨率)、EDSR(增强型深度残差网络)、SRGAN(利用GAN的超分辨率模型)及LapSRN(多级Laplacian金字塔超分辨率)。
|
10月前
|
人工智能 索引
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。
517 19
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
|
9月前
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。
|
机器学习/深度学习 计算机视觉 Python
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力本文提出了一种简单且高效的卷积神经网络(ConvNets)注意力模块——SimAM。与现有模块不同,SimAM通过优化能量函数推断特征图的3D注意力权重,无需添加额外参数。SimAM基于空间抑制理论设计,通过简单的解决方案实现高效计算,提升卷积神经网络的表征能力。代码已在Pytorch-SimAM开源。
【YOLOv11改进 - 注意力机制】SimAM:轻量级注意力机制,解锁卷积神经网络新潜力
|
机器学习/深度学习 编解码 算法
什么是超分辨率?浅谈一下基于深度学习的图像超分辨率技术
超分辨率技术旨在提升图像或视频的清晰度,通过增加单位长度内的采样点数量来提高空间分辨率。基于深度学习的方法,如SRCNN、VDSR、SRResNet等,通过卷积神经网络和残差学习等技术,显著提升了图像重建的质量。此外,基于参考图像的超分辨率技术通过利用高分辨率参考图像,进一步提高了重建图像的真实感和细节。

热门文章

最新文章

下一篇