[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] Diffusion Models already have a Semantic Latent Space
๐ก ํต์ฌ ์์ฝ
- ๊ธฐ์กด ๋ํจ์ ๋ชจ๋ธ์์ ์์ฑ ๊ณผ์ ์ ์ ์ดํ ๋ ๋ฐ์ํ์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ ์ ์
- Asyrp์ ์ ์ํ์ฌ ์ค๊ฐ ๋ณํ๊ฐ ์์๋๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
- ๋ํจ์ ๋ชจ๋ธ์์ ์ด๋ฏธ์ง ์์ฑ ๊ณผ์ ์ ์ ์ดํ ์ ์๋ ์๋ฏธ์ ์ ์ฌ ๊ณต๊ฐ(semantic latent space)์ธ h-space์ ๋ฐ๊ฒฌ
- GAN์์ ์ ์ฌ ๊ณต๊ฐ(latent space)์ ํธ์งํด์ ์ด๋ฏธ์ง๋ฅผ ์ ์ดํ๋ ๊ฒ๊ณผ ๊ฐ์ด ๋ํจ์ ๋ชจ๋ธ์์๋ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์ ์ดํ ์ ์์
- ์์ฑ ๊ณผ์ ์ ํ๋ก์ธ์ค๋ฅผ Asyrp์ ์ด์ฉํ editing, ๊ธฐ์กด denoising, quality boosting์ 3๋จ๊ณ๋ก ๋๋ ์ ๋ค์ํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ ์ข์ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ก ํจ
Introduction
๊ธฐ์กด diffusion ๋ชจ๋ธ์์ ์ด๋ฏธ์ง ์์ฑ์ ์ ์ดํ๋ ๊ณผ์ ์ ๋ํ ์ค๋ช ์ด๋ค.
(a) ์ด๋ฏธ์ง ๊ฐ์ด๋์ค(image guidance)๋ ๋ฌด์กฐ๊ฑด์ (unconditional)์ธ ์ ์ฌ ๋ณ์(latent variable)์ ๊ฐ์ด๋ ์ด๋ฏธ์ง์ ์ ์ฌ ๋ณ์๋ฅผ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ๊ทธ๋ฌ๋, ๊ฐ์ด๋์ ๋ฌด์กฐ๊ฑด์ ์ธ ๊ฒฐ๊ณผ ์ค์์ ์ด๋ค ํน์ฑ์ ๋ฐ์ํ ์ง ๋ช ํํ ์ง์ ํ๋ ๊ฒ์ด ๋ชจํธํ๋ฉฐ, ๋ณํ์ ํฌ๊ธฐ๋ฅผ ์ง๊ด์ ์ผ๋ก ์ ์ดํ๊ธฐ ์ด๋ ต๋ค.
(b) ๋ถ๋ฅ๊ธฐ ๊ฐ์ด๋์ค(classifier guidance)๋ ๋ํจ์ ๋ชจ๋ธ์ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ถ๊ฐํ์ฌ ๋ชฉํ ํด๋์ค์ ์ผ์นํ๋๋ก ์ญ ๊ณผ์ ์์ ์ ์ฌ ๋ณ์์ ๋ถ๋ฅ๊ธฐ์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ์กฐ์ํ๋ค. ์ด ๋ฐฉ๋ฒ์ ์ถ๊ฐ์ ์ผ๋ก ๋ถ๋ฅ๊ธฐ๋ฅผ ํ๋ จํด์ผ ํ๊ณ , ์ํ๋ง ์ค์ ๋ถ๋ฅ๊ธฐ๋ฅผ ํตํด ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ๋ฐ ๋น์ฉ์ด ๋ง์ด ๋ ๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ frozen ๋ํจ์ ๋ชจ๋ธ์ ์๋ฏธ์ ์ ์ฌ ๊ณต๊ฐ(semantic latent space)๋ฅผ ๋ฐ๊ฒฌํ๋ ๋น๋์นญ ์ญ๋ฐฉํฅ ํ๋ก์ธ์ค(Asyrp)๋ฅผ ์ ์ํ๋ค. ๊ทธ๋ ๊ฒ ํด์ ๋ฐ๊ฒฌํ ์๋ฏธ์ ์ ์ฌ ๊ณต๊ฐ์ h-space๋ผ๊ณ ์นญํ๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ฌ์ ํ๋ จ๋ frozen ๋ํจ์ ๋ชจ๋ธ์์ ์๋ฏธ์ ์ ์ฌ ๊ณต๊ฐ์ ์ต์ด๋ก ๋ฐ๊ฒฌํ์๋ค.
2. Background
์๋ฏธ์ ์ ์ฌ ๊ณต๊ฐ์ ๋ํด ์ด์ผ๊ธฐ ํ๊ธฐ ์ ์ DDIM์ reverse process ์์ ์ดํด๋ณด๋ ๊ฒ์ผ๋ก ์์ํ๋ค. DDIM์์๋ non-Markovian ํ๋ก์ธ์ค๋ฅผ ์ด์ฉํด์, DDPM์ forward process์์ ๋ค์๊ณผ ๊ฐ์ด ์ฌ์ ์ํ๋ค.
DDPM, DDIM
- DDPM์ forward process
- DDIM์ forward process
- DDIM์ reverse process
์ฌ๊ธฐ์ $\sigma_t = \eta\sqrt{(1-\alpha_{t-1}) / (1-\alpha_t)} \sqrt{1-\alpha_t/\alpha_{t-1}}$์ด๋ค. $\eta$=1์ธ ๊ฒฝ์ฐ DDPM์ด ๋๊ณ stochasticํด์ง๋ฉฐ, $\eta$=0์ธ ๊ฒฝ์ฐ DDIM์ด ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ DDIM์ reverse process ์์ ์๋์ ์์ผ๋ก ๊ฐ๋ตํ๊ฒ ์ด๋ค. โpredicted $x_0$โ์ $\mathrm{P}_t(\epsilon_t^{\theta}(x_t))$ ๋ผ๊ณ ํํํ๊ณ , โdirection pointing to $x_t$โ๋ถ๋ถ์ $\mathrm{D}_t(\epsilon_t^{\theta}(x_t))$๋ผ๊ณ ํํํ๋ค.
\[x_{t-1} = \sqrt{\alpha_{t-1}}\mathrm{P}_t(\epsilon_t^{\theta}(x_t)) + \mathrm{D}_t(\epsilon_t^{\theta}(x_t)) + \sigma_t\mathcal{z_t}\]๋ํ, ๊ฐ๊ฒฐ์ฑ์ ์ํด $\mathrm{P}_t(\epsilon_t^{\theta}(x_t))$ ๋ $P_t$๋ก $\mathrm{D}_t(\epsilon_t^{\theta}(x_t))$๋ $D_t$๋ก ํํํ๊ณ , $\eta\ne0$์ผ ๋๋ฅผ ์ ์ธํ๊ณ ๋ $\sigma_t\mathcal{z_t}$๋ฅผ ์๋ตํ๋ค.
Image Manipulation with CLIP
CLIP์ ์ด๋ฏธ์ง ์ธ์ฝ๋ $E_I$์ ํ ์คํธ ์ธ์ฝ๋ $E_T$๋ก ๋ฉํฐ๋ชจ๋ฌ ์๋ฒ ๋ฉ์ ํ์ตํ๋ฉฐ, ์ ์ฌ์ฑ์ ์ด๋ฏธ์ง์ ํ ์คํธ ๊ฐ์ ์ ์ฌ์ฑ์ ๋ํ๋ธ๋ค. Editied image์ target distription ์ฌ์ด์ ์ฝ์ฌ์ธ ๊ฑฐ๋ฆฌ๋ฅผ ์ด์ฉํ directional loss๋ฅผ ์ด์ฉํ์ฌ mode collapse์์ด ๊ท ์ผํ editing์ ํ์๋ค.
\[\mathcal{L}_{direction} (x^{edit}, y^{target};x^{source},y^{source}) := 1 - \cfrac{\Delta I \cdot \Delta T}{\parallel\Delta I\parallel \parallel\Delta T\parallel}\]$\Delta T = \mathrm{E}_T(y^{target}) - \mathrm{E}_T(y^{source})$
$\Delta I = \mathrm{E}_I(x^{edit}) - \mathrm{E}_I(x^{source})$
- $x^{edit}$: edited image
- $y^{target}$: target description
- $x^{source}$: original image
- $y^{source}$: source description
3. Discovering Semantic Latent Space In Diffusion Models
ํด๋น ํํธ์์๋ ์ ๊ธฐ์กด์ ๋ฐฉ๋ฒ๋ค์ด reverse process๋ฅผ ์ ์ด๋ฅผ ์ ํ์ง ๋ชปํ๋์ง์ ๋ํด ์ค๋ช ํ๊ณ , ์์ฑ ๊ณผ์ ์ ์ ์ดํ ์ ์๋ ๊ธฐ์ ์ ๋ํด ์๊ฐํ๋ค.
3.1. Problem
Semantic latent manipulation์ ํ๋ ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ 2์์ ์ค๋ช ํ ๊ฒ์ฒ๋ผ ํ ์คํธ ํ๋กฌํํธ๊ฐ ์ฃผ์ด์ก์ ๋ CLIP loss๋ฅผ ์ต์ ํ ํ๋๋ก x_T๋ฅผ ์ ๋ฐ์ดํธ ํ์ฌ x_0๋ฅผ ์กฐ์ ํ๋ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ ์ด๋ฏธ์ง๊ฐ ์๊ณก๋๊ฑฐ๋ ์๋ชป๋ ์กฐ์์ผ๋ก ์ด์ด์ง๊ฒ ๋๋ค.
๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ผ๋ก๋ ๊ฐ ์ํ๋ง ๋จ๊ณ์์ ๋คํธ์ํฌ๊ฐ ์์ธกํ ๋ ธ์ด์ฆ $\epsilon_t^{\theta}$๋ฅผ ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์ด๋์ํค๋ ๊ฒ์ด๋ค. ํ์ง๋ง ์ด ๋ฐฉ๋ฒ์ $P_t$์ $D_t$์ ์ค๊ฐ ๋ณํ๊ฐ ์์๋์ด ๊ธฐ์กด latent variable๊ณผ ๋ค๋ฅด์ง ์๊ฒ ๋๋ค.
์ด์ ๋ํ ์ฆ๋ช ์ ๋ณธ ๋ ผ๋ฌธ์ Appendix C์ ์๋ก๋์ด ์๋ค.
3.2 Asymmetric Reverse Process(Asyrp)
์์์ ์ค๋ช ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์์๋ Asyrp๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด ๋ฐฉ์์ด $P_t$์ $D_t$์ ์ค๊ฐ ๋ณํ๊ฐ ์์๋์ด ์ํ๋ ํจ๊ณผ๋ฅผ ๋ด์ง ๋ชปํ๋๋ฐ, ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด $P_t$์ $D_t$๋ฅผ ๋น๋์นญ์ ์ผ๋ก ๋์ํ๊ฒ ํ๋ ๊ฒ์ด๋ค. $x_0$๋ฅผ ์์ธกํ๋ $\mathrm{P}_t$์์๋ shifted epsilon $\tilde{\epsilon}_t^{\theta}(x_t)$์ ์ฌ์ฉํ๊ณ , latent variable๋ก ๋์๊ฐ๋ $\mathrm{D}_t$์์๋ non-shifted epsilon $\epsilon_t^{\theta}$์ ์ฌ์ฉํ๋ค. Asyrp๋ฅผ ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
\[x_{t-1} = \sqrt{\alpha_{t-1}}\mathrm{P}_t(\tilde{\epsilon}_t^{\theta}(x_t)) + \mathrm{D}_t(\epsilon_t^{\theta}(x_t))\]Loss๋ 2์์ ์๊ฐํ $\mathcal{L}_{direction}$์ ์ฌ์ฉํ์ฌ ์ฌ๊ตฌ์ฑํ์๋ค. Edit์ ํ์ง ์์ $\mathrm{P}_t^{source}$์ editํ $\mathrm{P}_t^{edit}$์ ์ฌ์ฉํ๋ค. Loss์์ ๋ค์๊ณผ ๊ฐ๋ค.
\[\mathcal{L}^{(t)} = \lambda_{CLIP}(\mathrm{P}_t^{edit}, y^{ref};\mathrm{P}_t^{source},y^{source}) + \lambda_{recon}|\mathrm{P}_t^{edit} - \mathrm{P}_t^{source}|\]์ ์ฒด์ ์ธ reverse process๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ฉด ์๋์ ๊ฐ๋ค.
$x_t$๋ก directionํ ๋๋ ์๋ DDIM์ ๋ ธ์ด์ฆ๋ฅผ ์ฌ์ฉํ๊ณ , $x_0$์ predictํ ๋๋ shifted epsilon์ ์ฌ์ฉํ๋ค.
3.3 h-space
U-net ๊ตฌ์กฐ์์ ์ธ์ฝ๋์ ๊ฐ์ฅ ๊น์ feature map์ธ $h_t$ (๋ ธ๋์ ๋ฐ์ค)๋ฅผ ์ ํํ์ฌ $\epsilon_t^{\theta}$๋ฅผ ์ ์ดํ๋ค. $h_t$๋ spatial resolution์ด ์๊ณ ๋์ ์์ค์ semantics๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
$h_t$๋ฅผ ์ด์ฉํ ์ํ๋ง ๋ฐฉ์ ์์ ์๋์ ๊ฐ์ด ๋๋ค.
์ ์์์ \(\epsilon_t^{\theta}(x_t|\Delta{h_t})\)์ original featuremap $h_t$์ $\Delta{h_t}$๋ฅผ ์ถ๊ฐํ๋ค.
h-space๋ ๋ค์๊ณผ ๊ฐ์ ์์ฑ์ ๊ฐ์ง๊ณ ์๋ค.
- ๋์ผํ $\Delta{h_t}$๋ ๋ค๋ฅธ ์ํ์ ๋์ผํ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค.
- ์ ํ ์ค์ผ์ผ๋ง $\Delta{h_t}$๋ ์์ ์ค์ผ์ผ์์๋ ์์ฑ ๋ณํ์ ํฌ๊ธฐ๋ฅผ ์ ์ดํ๋ค.
- ์ฌ๋ฌ ๊ฐ์ $\Delta{h_t}$๋ฅผ ์ถ๊ฐํ๋ฉด ํด๋น๋๋ ์ฌ๋ฌ ์์ฑ์ ๋์์ ์กฐ์ํ๋ค.
- $\Delta{h_t}$๋ ํ์ง ์ ํ ์์ด ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์ ํ์ง์ ๋ณด์กดํ๋ค.
- $\Delta{h_t}$๋ ๋ค๋ฅธ ์๊ฐ ๊ฐ๊ฒฉ t์ ๊ฑธ์ณ ๋๊ฒ ์ผ๊ด์ฑ์ด ์๋ค.
3.4 Implicit Neural Directions
์ฌ๋ฌ ์๊ฐ ๊ฐ๊ฒฉ์ ๋ํด $\Delta{h_t}$๋ฅผ ์ง์ ์ต์ ํ ํ๋ ค๋ฉด ํ์ต์ ๋ง์ iteration์ด ํ์ํ๊ณ , learning rate์ scheduling์ ์ ํํด์ผ ํ๋ ๋ฌธ์ ์ ์ด ์๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด $h_t$์ $t$๊ฐ ์ฃผ์ด์ก์ ๋ $\Delta{h_t}$๋ฅผ ๋ง๋ค์ด๋ด๋ implicit function $f_t(h_t)$๋ฅผ ์ ์ํ๋ค. ์ด๊ฒ์ timestep t๋ก ์ฐ๊ฒฐ ๋ 2๊ฐ์ 1x1 convolution์ผ๋ก ๊ตฌํํ์๋ค.
4. Generative Process Design
์ด ํํธ์์๋ ์ ์ฒด์ ์ธ editing process์ ๋ํด ์ค๋ช ํ๋ค. ์ ์ฒด์ ์ธ process๋ ์ธ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋ค.
- Asyrp์ ์ด์ฉํ editing
- ๊ธฐ์กด denoising
- Quality boosting
๋ณธ ๋ ผ๋ฌธ์์๋ ๊ฐ ๋จ๊ณ์ ๊ธธ์ด๋ฅผ ์ ๋ํ ํ ์ ์๋ ๊ณต์์ ์ค๊ณํ๋ค.
4.1. Editing process with Asyrp
์์ฑ ๊ณผ์ ์ ์์ ํ์ฌ semantic์ ๋ฐ๊พธ๋ ์ด๊ธฐ ๋จ๊ณ์ด๋ค. ์๋์ ์์ผ๋ก ๊ตฌ๊ฐ [T,t]์์์ editing strength๋ฅผ ์ ์ํ๋ค.
ํธ์ง ๊ฐ๊ฒฉ์ด ์งง์์๋ก $\xi_t$๊ฐ ๋ฎ์์ง๊ณ , ํธ์ง ๊ฐ๊ฒฉ์ด ๊ธธ์๋ก ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์ ๋ ๋ง์ ๋ณํ๊ฐ ์๊ธด๋ค. ์ถฉ๋ถํ ๋ณํ๋ฅผ ์ค ์ ์๋ ํ์์ ๊ฐ์ฅ ์ต์์ Editing interval์ ์ฐพ๋ ๊ฒ์ด $t_{edit}$์ ๊ฒฐ์ ํ๋ ์ต๊ณ ์ ๋ฐฉ๋ฒ์ด๋ค. ์ ์๋ค์ ์คํ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ํตํด \(\mathrm{LPIPS}(x, \mathrm{P}_t)\) = 0.33์ธ t์์ ์ $t_{edit}$์ผ๋ก ๊ฒฐ์ ํ์๋ค. ์ด ์ง์ ์ด ์ถฉ๋ถํ ๋ณํ๋ฅผ ์ค ์ ์์ผ๋ฉด์ ๊ฐ์ฅ ์ต์์ editing interval์ด์๋ค.
์๋์ ๊ทธ๋ฆผ์ ๋ค์ํ $\mathrm{LPIPS}(x, \mathrm{P}{t_{edit}})$์ ๋ฐ๋ฅธ ์์ฑ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ ๊ทธ๋ฆผ์ด๋ค.
4.2. Quality Boosting With Stochastic Noise Injection
DDIM์ stochasticity๋ฅผ ์ ๊ฑฐํ์ฌ ๊ฑฐ์ ์๋ฒฝํ inversion์ ๋ฌ์ฑํ์ง๋ง, stochasticity์ด ์ด๋ฏธ์ง ํ์ง์ ํฅ์ ์ํจ๋ค๋ ๊ฒฐ๊ณผ๊ฐ ์๋ค. ๋ฐ๋ผ์, ๋ณธ ๋ ผ๋ฌธ์์ boosting interval์์๋ ์ด๋ฏธ์ง ํ์ง์ ํฅ์ ์ํค๊ธฐ ์ํด์ ์ด ๊ฐ๊ฒฉ์์๋ stochastic noise๋ฅผ ์ฃผ์ ํ๋ค.
๋ถ์คํ ๊ฐ๊ฒฉ์ด ๊ธธ์๋ก ํ์ง์ด ๋์์ง์ง๋ง, ์ง๋์น๊ฒ ๊ธด ๊ฐ๊ฒฉ์ผ ๋์๋ ์ฝํ ์ธ ๊ฐ ๋ณํ ๋ ์ ์๋ค. ๋ฐ๋ผ์ ์ ์๋ค์ ์ฝํ ์ธ ์ ๋ณํ๋ฅผ ์ต์ํ ํ๋ฉด์ ์ถฉ๋ถํ ํ์ง ๋ถ์คํ ์ ์ ๊ณตํ๋ ์ต๋จ ๊ฐ๊ฒฉ์ ์ฐพ๊ณ ์ ํ์๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ด๋ฏธ์ง ๋ ธ์ด์ฆ๋ฅผ quality boosting์ capacity๋ก ๊ฐ์ฃผํ๊ณ , ์๋ณธ ์ด๋ฏธ์ง์ ๋น๊ตํ์ฌ $x_t$์ ๋ ธ์ด์ฆ ์์ ๋ํ๋ด๋ quality deficiency๋ฅผ ์๋์ ๊ฐ์ด ์ ์ํ๋ค.
\[\gamma_t = \mathrm{LPIPS}(x, x_t)\]์ ์๋ค์ ์คํ์ ํตํด $\gamma_t$ = 1.2์ธ t์์ ์ $t_{boost}$๋ก ์ค์ ํ์๋ค.
์๋์ ๊ทธ๋ฆผ์ quality boosting์ ์ ์ฉํ ๋์ ์ ์ฉํ์ง ์์์ ๋์ ๊ฒฐ๊ณผ ์ฐจ์ด๋ฅผ ๋ํ๋ธ ๊ทธ๋ฆผ์ด๋ค.
4.3 Overall Process of Image Editing
$t_{edit}$๊ณผ $t_{boost}$๋ฅผ ์ด์ฉํ ์ ์ฒด์ ์ธ generative process๋ ์๋์ ๊ฐ์ด ์ ๋ฆฌ๋๋ค.
5. Experiments
- ๋ฐ์ดํฐ์
๊ณผ ๋ชจ๋ธ
- CelebA-HQ, SUN-bedroom/-church ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ DDPM++๋ฅผ ํ์ต
- FHQ-dog ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ iDDPM์ ํ์ต
- METFACES ๋ฐ์ดํฐ์ ์์ ADM with P2-weighting๋ฅผ ์ฌ์ฉํด ํ์ต
โ ๋ชจ๋ ๋ชจ๋ธ๋ค์ pretrained checkpoint๋ฅผ ํ์ฉํ์ผ๋ฉฐ frozen์ํ๋ฅผ ์ ์ง์์ผฐ๋ค.
5.1 Versatility of h-space with Asyrp
๋ค์ํ ๋ฐ์ดํฐ์ ์ ๋ํ Asyrp์ editing result์ด๋ค.
์์ ๊ทธ๋ฆผ์ ๋ณผ ์ ์๋ฏ, ๋ค์ํ attribute๋ค์ ํน์ฑ์ ์ ๋ฐ์ํด์ ์ด๋ฏธ์ง๋ฅผ ์กฐ์ ํ ๊ฒ์ ์ ์ ์๋ค. ์ฌ์ง์ด ํ๋ จ์ ํฌํจ๋์ง ์์ ์์ฑ์ธ {department, factory, temple}์ ๋ํด์๋ ํฉ์ฑํ ์ ์์๋ค. ๋ฌด์๋ณด๋ค ๋ชจ๋ธ์ fine tuningํ์ง ์๊ณ inference ์ค์์ Asyrph๋ฅผ ์ฌ์ฉํ์ฌ h-space์ bottle neck feature maps๋ง ์ด๋ ์ํจ ๊ฒฐ๊ณผ๋ผ๋ ๊ฒ์ด ๋๋๋ค.
5.2 Quantitive Comparison
Fine-tuning์์ด ๋ค์ํ diffusion ๋ชจ๋ธ๊ณผ ๊ฒฐํฉ ํ ์ ์๋ ์ ์ ๊ณ ๋ คํ ๋, ๋น์ทํ ๊ฒฝ์์๋ฅผ ์ฐพ์ ์ ์์๋ค. ๋ฐ๋ผ์ ์ ์ฒด ๋ชจ๋ธ์ fine-tuningํ์ฌ ์ด๋ฏธ์ง๋ฅผ ํธ์งํ๋ DiffusionCLIP๊ณผ ๋น๊ต๋ฅผ ํ์๋ค. 80๋ช ์ ์ฐธ๊ฐ์์๊ฒ ์ด 40๊ฐ์ ์๋ณธ ์ด๋ฏธ์ง ์ธํธ์ Asyrp์ ๊ฒฐ๊ณผ์ DiffusionCLIP์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ๋๋ก ํ์๋ค. (ํ์ง, ์์ฐ์ค๋ฌ์, ์ ๋ฐ์ ์ธ ์ ํธ๋ ๊ณ ๋ ค) ๊ทธ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค.
๋ชจ๋ ๊ด์ ์์ Asyrp๊ฐ DiffusionCLIP์ ๋ฅ๊ฐํ๋ ๊ฒ์ ๋ณผ ์ ์์๋ค.
5.3 Analysis on h-space
Homogeneity
์๋ ๊ทธ๋ฆผ์ $\epsilon$-space์ ๋น๊ตํ h-space์ homogeneity๋ฅผ ๋ณด์ฌ์ค๋ค. ํ๋์ ์ด๋ฏธ์ง์ ๋ํด $\Delta h_t$๋ฅผ ์ต์ ํํ๋ฉด ๋ค๋ฅธ ์ ๋ ฅ ์ด๋ฏธ์ง์๋ ๋์ผํ ์์ฑ ๋ณ๊ฒฝ์ด ๋ฐ์ํ๋ค. ๋ฐ๋ฉด์ ํ๋์ ์ด๋ฏธ์ง์ ์ต์ ํ ๋ $\Delta \epsilon_t$๋ ๋ค๋ฅธ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์๊ณกํ๋ค.
Linearity
์๋ ๊ทธ๋ฆผ์ ํตํด $\Delta h_t$์ ์ ํ ์ค์ผ์ผ๋ง์ด ์๊ฐ์ ์์ฑ์ ๋ณํ๋์ ๋ฐ์ํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ๋๋ผ๋ฒก๋ ํ๋ จ ์ค์๋ ๋ณผ ์ ์๋ ์์ ์ค์ผ์ผ๋ก๋ ์ผ๋ฐํ๊ฐ ๋๋ค.
๋ํ, ์๋ ๊ทธ๋ฆผ์ฒ๋ผ ์๋ก ๋ค๋ฅธ $\Delta h_t$์ ์กฐํฉ์ด ๊ฒฐ๊ณผ ์ด๋ฏธ์ง์์ ๊ฒฐํฉ๋ semantic change๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Robustness
์๋ ๊ทธ๋ฆผ์ h-space์ $\epsilon$-space์์ random noise๋ฅผ ์ฃผ์ ํ์ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ ๊ฒ์ด๋ค. h-space๋ random noise๊ฐ ์ถ๊ฐ๋์์ด๋ ์ด๋ฏธ์ง์ ํฐ ๋ณํ๊ฐ ์์ผ๋ฉฐ ๋ง์ noise๊ฐ ์ถ๊ฐ๋์์ ๊ฒฝ์ฐ์๋ ์ด๋ฏธ์ง ์๊ณก์ ๊ฑฐ์ ์๊ณ semantic change๋ง ๋ฐ์ํ๋ค. ๋ฐ๋ฉด์ $\epsilon$-space์ ๊ฒฝ์ฐ์๋ random noise๊ฐ ์ถ๊ฐ๋ ๊ฒฝ์ฐ ์ด๋ฏธ์ง ์๊ณก์ด ์ฌํ๊ฒ ๋ฐ์ํ๋ค.
Consistency across time steps
๋ชจ๋ ์ํ์ $\Delta h_t$๋ ๊ท ์ผํ๋ฉฐ, ํ๊ท $\Delta h^{mean}$์ผ๋ก ๋์ฒดํด๋ ๋น์ทํ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค. ์ต์์ ํ์ง๊ณผ ์กฐ์์ ์ํด $\Delta h_t$๋ฅผ ์ฌ์ฉํ์ง๋ง, ๊ฐ๊ฒฐ์ฑ์ ์ํด $\Delta h^{mean}$ , ๋๋ ์ฝ๊ฐ์ ์ ์ถฉ์ธ $\Delta h^{global}$์ ์ฌ์ฉํ ์ ์๋ค. ์ด ๋์๋ $\Delta h_t$๋ฅผ ์ฌ์ฉํ์ ๋์ ๋น์ทํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค.
6. Conclusion
๋ณธ ๋ ผ๋ฌธ์์๋ ์ฌ์ ํ๋ จ๋ diffusion model์ ์ํด latent semantic space h-space์์ ์ด๋ฏธ์ง ํธ์ง์ ์ฉ์ดํ๊ฒ ํ๋ ์๋ก์ด ์์ฑ ํ๋ก์ธ์ค์ธ Asyrp์ ์ ์ํ์๋ค. h-space๋ GAN์ latent space์ ๋ง์ฐฌ๊ฐ์ง๋ก homogeneity, Linearity, Robustness, Consistency across timesteps ๋ฑ์ ์ข์ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ์ ์ฒด editing process๋ ์๊ฐ ๋จ๊ณ๋ณ๋ก editing strength์ quality deficiency๋ฅผ ์ธก์ ํ์ฌ ๋ค์ํ ํธ์ง๊ณผ ๋์ ํ์ง์ ๋ฌ์ฑํ๋๋ก ์ค๊ณ๋์๋ค.