找回密码
 立即注册
首页 业界区 安全 图像擦除论文-2:SmartEraser、Erase Diffusion、OmniEr ...

图像擦除论文-2:SmartEraser、Erase Diffusion、OmniEraser

师悠逸 2025-7-4 08:26:43
图像生成模型应用系列——图像擦除:
图像擦除论文-1:PixelHacker、PowerPanint等
图像擦除论文-2:擦除类型数据集构建(1)
Erase Diffusion

Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways
https://github.com/longtaojiang/SmartEraser
CVPR-2025
1、模型结构

1.webp

论文出发点主要为:1、动态图像组合:区别常规的图像去除实验target image就是我们的去除内容之后的图片,在该文中将其替换为:\(x_t^{mix} = (1-\lambda_t)x_0^{ori}+ \lambda_t x_0^{obj}\) 也就是随着解噪过程(t逐渐减小)图片中所添加的实体(\(x^{obj}_0\))所占的权重越来越小,同时将 input image也替换为动态的过程:\(x_t^{min}=\sqrt{\alpha_t}x_t^{min}+ \sqrt{1- \alpha_t}\epsilon\);2、改变模型的预测过程:上面两部分公式处理之后那么得到的输入图像是一个“图像链”输出图像也是一个“图像链”,那么模型需要做的就是将对应“图像链”之间的loss进行计算。
2.webp

3、改进注意力计算方式:这部分比较容易理解在计算注意力过程中将mask加入到计算也就是:\(QK^T\bigodot Mask\)
3.webp

SmartEraser

SmartEraser: Remove Anything from Images using Masked-Region Guidance
CVPR-2025
1、数据集构建

4.webp

合成数据集构建思路上使用思路是:实体过滤背景检测而后将两部分进行组合。Step-1:实体过滤:直接通过语义分割模型(如SAM等)分割出实体之后,通过CLIP计算实体的score并且过滤掉过大/小的分割实体(保留5%-95%)进而获得需要粘贴的实体;Step-2:过滤背景图片:直接通过计算分辨率等从COCONut 和SAM-1B数据集中挑选出合适图片背景;Step-3:图片组合:首先将实体和背景图像中相同实体大小保持一致,而后通过计算我分割实体\(c_1\) 以及背景中的实体 \(c_i\)之间的IoU:\(R_1\),以及保证需要粘贴实体在整个背景中的位置(保证不超出背景图片):\(R_2\)而后取两部分交集得到图像应该插入的合理位置。最后通过 alpha blending将两部分图像(实体+背景)进行组合。
2、模型结构测试效果

5.webp

论文主要就是将模型的输入进行改进:将模型图像输入由\([mask, image\bigodot (1-mask)]\) 改为 \([mask, image]\),除此之外将DF模型的condition改进(将图像编码嵌入到文本编码中):\([\text{CLIP-TextEncoder(text)}, \text{MLP}(\text{Image}\bigodot \text{Mask})]\)。除此之外就是将mask由“规则”(实体分割是规则的)变为“不规则”(将实体分割mask进行额外处理如膨胀处理等)最后测试效果是:
6.webp

ME:将mask变不规则;RG:改变模型输入;VG:将图像编码嵌入到clip文本编码中
微调测试效果
7.webp
8.webp
9.webp
10.webp
11.webp
值得注意的是,在其合成的数据里面,合成得到结果很粗糙(感觉就像是随机贴图),因此感觉数据可用性不高
12.webp

13.webp

OmniEraser

https://pris-cv.github.io/Omnieraser/
1、数据集构建

通过视频来获取(mask-image)数据集,具体操作流程如下:
14.webp

首先获取一段视频 \(\mathbf{V}\) 通过 混合高斯算法(MOG)去检查视频中移动的物体以及静止的物体这样一来就可以得到两部分内容:Background和Foreground而后通过计算两部分之间的MSE(\(MSE(V_i^{fg}, V_j^{bg})\))就可以得到source-image和 target-image对。对于mask内容直接通过 GroundDINO+SAM2 算法来构建mask这样一来就可以得到:foreground-image,mask,background-image。模型算法这是直接去微调 FLUX.1-dev
2、模型结构测试效果

15.webp

实际测试效果(使用prompt为:'There is nothing here.')
原图Mask结果测试细节
16.webp
17.webp
18.webp
19.webp
20.webp
21.webp
22.webp
23.webp
24.webp
25.webp
26.webp
27.webp
28.webp

来源:豆瓜网用户自行投稿发布,如果侵权,请联系站长删除

相关推荐

您需要登录后才可以回帖 登录 | 立即注册