66個擴散模型Diffusion Models經典論文

劉智皓 (Chih-Hao Liu)

75 min readDec 24, 2023

--

這一兩年隨著DALL-E、Midjourney、Stable Diffusion的推出，相信大家都感受到了AI影像生成的震撼吧！所以今天要來介紹我自己看過的擴散模型Diffusion Models論文精選，這邊一樣我會依照時間順序列出，論文裡面不包含文字、語音、影片、3D點雲生成的Diffusion Models，因為video generation和3D點雲的發展最近正在爆發當中。OK！好那我們一樣就開始介紹我們的經典論文吧！

1. Diffusion Models

論文名稱：Deep Unsupervised Learning using Nonequilibrium Thermodynamics
發布時間：2015/03/12
發布單位：史丹佛大學、加州大學柏克萊分校
中文摘要：機器學習中的一個核心問題是利用高度靈活的機率分佈來建模複雜的數據集，同時保持學習、取樣、推斷和評估的解析或計算可行性。所以在這篇論文中，我們開發了一種方法，同時實現了靈活性和可行性。這個方法的核心思想受到非平衡統計物理學的啟發，通過逐步地、慢慢地破壞數據分佈中的結構，進行迭代正向擴散過程。接著我們學習一個反向擴散過程，在數據中恢復結構，從而產生一個高度靈活且可行的數據生成模型。這種方法使我們能夠快速學習、從深度生成模型中取樣和評估機率，即使模型有成千上萬的層或時間步長，也能計算在學習模型下的條件和後驗機率。
論文連結：https://arxiv.org/pdf/1503.03585.pdf

2. Noise Conditional Score Network (NCSN)

論文名稱：Generative Modeling by Estimating Gradients of the Data Distribution
發布時間：2019/07/12
發布單位：史丹佛大學
中文摘要：我們引入了一種新的生成模型，通過使用梯度估計的數據分佈的Langevin動力學來生成樣本。因為當數據存在於低維流形上時，梯度可能定義不清楚且難以估計，所以我們用不同程度的高斯雜訊干擾數據，並聯合估計相應的分數，即對所有雜訊程度的干擾數據分佈梯度場。對於取樣的部分，我們提出了一種退火Langevin動力學，在取樣過程接近數據流形時，使用與逐漸降低雜訊程度相對應的梯度。我們的框架允許靈活的模型架構，在訓練過程中不需要取樣或使用對抗學習方法，使其提供了可用於基於原則模型比較的學習目標。最後我們的模型在MNIST、CelebA和CIFAR-10數據集上生成的樣本與GANs相當，並在CIFAR-10上取得了8.87的新的最先進Inception分數。此外我們通過圖像修補實驗展示了我們的模型學習到了有效的表示。
論文連結：https://arxiv.org/pdf/1907.05600.pdf

3. Improved NCSN

論文名稱：Improved Techniques for Training Score-Based Generative Models
發布時間：2020/06/16
發布單位：史丹佛大學
中文摘要：基於分數的生成模型可以生成品質高且可與GANs相媲美的圖像樣本，而且無需對抗性的優化。但是現有的訓練程序僅適用於低解析度圖像（通常低於32x32），在某些設置下可能不穩定。所以我們提供了對於在高維空間中從分數模型學習和取樣的新理論分析，解釋了現有的失敗模式，並提出跨數據集的新解決方案。為了提高穩定性，我們還建議保持模型權重的指數移動平均。通過這些改進，我們能輕鬆將基於分數的生成模型擴展到64x64到256x256等前所未有的解析度圖像。我們基於分數的模型能夠在CelebA、FFHQ和多個LSUN類別等各種圖像數據集上生成高保真度樣本，與頂尖的GANs相媲美。
論文連結：https://arxiv.org/pdf/2006.09011.pdf

4. Denoising Diffusion Probabilistic Models (DDPM)

論文名稱：Denoising Diffusion Probabilistic Models
發布時間：2020/06/19
發布單位：加州大學柏克萊分校
中文摘要：我們利用擴散機率模型進行高品質圖像合成，這是一種受到非平衡熱力學考慮啟發的潛變量模型。我們設計了一種加權變分界限，根據擴散概率模型與Langevin動力學中去雜訊分數匹配的新聯繫。另外我們的模型還可以自然地採用漸進式的有損解壓縮方案，其可視為自回歸解碼的推廣。最後在無條件CIFAR10數據集上，我們獲得了9.46的Inception分數和3.17的最佳FID分數。在256x256的LSUN數據集上，我們得到了與ProgressiveGAN相似的樣本質量。
論文連結：https://arxiv.org/pdf/2006.11239.pdf

5. Denoising Diffusion Implicit Models (DDIM)

論文名稱：Denoising Diffusion Implicit Models
發布時間：2020/10/06
發布單位：史丹佛大學
中文摘要：Denoising diffusion probabilistic models (DDPMs) 已經在不使用對抗訓練的情況下實現了高品質的圖像生成，但它們需要模擬多個步驟的馬可夫鏈才能生成樣本。為了加速抽樣，我們提出了去雜訊擴散隱式模型 (DDIMs)，這是一種更高效的迭代隱式機率模型，其訓練過程與 DDPMs 相同。在 DDPMs 中，生成過程被定義為馬可夫擴散過程的反向。所以我們構建了一類非馬可夫擴散過程，它們有相同的訓練目標，但其反向過程可能可以更快速地進行抽樣。最後我們實證表明，相對於 DDPMs，DDIMs 在壁時計時刻方面，可以快速產生高品質的樣本，速度上提升了 10 至 50 倍，允許我們在計算和樣本品質之間進行權衡，並且可以直接在潛在空間中執行有意義的圖像插值。
論文連結：https://arxiv.org/pdf/2010.02502.pdf

6. Score-Based Generative Modeling

論文名稱：Score-Based Generative Modeling through Stochastic Differential Equations
發布時間：2020/11/26
發布單位：史丹佛大學
中文摘要：將雜訊轉換為數據容易，將數據轉換為雜訊是生成建模。我們提出了一個隨機微分方程（SDE），通過緩慢注入雜訊，平滑地將複雜的數據分布轉換為已知的先驗分布；另外我們同時提出了相應的逆時間SDE，通過緩慢地去除雜訊，將先驗分布轉換回數據分布。重要的是，逆時間SDE僅依賴於受擾動數據分布的時間依賴梯度場（也就是分數）。通過利用基於分數的生成建模的進展，我們可以用神經網絡準確估計這些分數，並使用數值SDE求解器生成樣本。我們展示了這個框架將之前的方法包括在分數為基礎的生成建模和擴散概率建模中，允許新的取樣程序和新的建模能力。特別是我們引入了一個預測-校正框架，來校正離散逆時間SDE演化中的錯誤。我們還推導了一個等效的神經ODE，該ODE從與SDE相同的分布中取樣，但還能實現精確的可能性計算和提高取樣效率。此外我們提供了使用基於分數的模型解決反問題的新方法，通過對類別條件生成、圖像修補和著色等實驗進行了證明。結合多個架構改進，我們在CIFAR-10上實現了無條件圖像生成的突破表現，Inception分數達到了9.89，FID為2.20，bits/維度的可能性競爭水平為2.99，首次展示了從基於分數的生成模型生成1024 x 1024圖像的高保真性。
論文連結：https://arxiv.org/pdf/2011.13456.pdf

7. Improved DDPM

論文名稱：Improved Denoising Diffusion Probabilistic Models
發布時間：2021/02/18
發布單位：OpenAI
中文摘要：最近展示了去雜訊擴散機率模型（DDPM）在生成優質樣本方面的優異表現。我們證明了對DDPM進行少量簡單修改後，它們不僅能達到具有競爭力的對數似然，同時保持高質量樣本的產生。此外我們發現學習逆擴散過程的變異數使得在產生樣本時，前向通過數量可減少一個量級，而樣本品質幾乎無差異，這對這些模型的實際應用至關重要。我們另外使用精度和召回率來比較DDPM和GAN在覆蓋目標分佈方面的表現。最後我們展示這些模型的樣本品質和似然度能夠平滑地隨著模型容量和訓練計算的增加而提升，使它們易於擴展。
論文連結：https://arxiv.org/pdf/2102.09672.pdf

8. SR3

論文名稱：Image Super-Resolution via Iterative Refinement
發布時間：2021/04/15
發布單位：Stability AI
中文摘要：我們提出了SR3，這是一種透過重複細化的方法進行圖像超解析度處理。SR3將去雜訊擴散機率模型應用於有條件的圖像生成，通過隨機去雜訊過程進行超解析度處理。推論過程從純高斯雜訊開始，通過在不同雜訊程度上進行去雜訊訓練的U-Net模型迭代細化雜訊輸出。另外SR3在不同放大倍數、人臉和自然圖像的超解析度任務中表現出色。我們在CelebA-HQ上進行了標準8X人臉超解析度任務的人工評估，與SOTA GAN方法進行了比較。SR3實現了接近50%的騙過率，表明生成的圖像接近真實照片，而GAN的騙過率未超過34%。此外我們進一步展示了SR3在級聯圖像生成中的有效性，其中生成模型與超解析度模型串聯，產生了在ImageNet上競爭力的FID得分11.3。
論文連結：https://arxiv.org/pdf/2104.07636.pdf

9. Guided Diffusion

論文名稱：Diffusion Models Beat GANs on Image Synthesis
發布時間：2021/05/11
發布單位：OpenAI
中文摘要：我們展示了擴散模型在圖像生成上的優異品質，超越了目前最先進的生成模型。在無條件圖像合成方面，我們通過一系列消融實驗找到了更好的架構。對於有條件的圖像合成，我們進一步提高了樣本品質，使用分類器指導：這是一種簡單且計算效率高的方法，利用分類器的梯度來在多樣性和保真度之間取得平衡。另外我們在ImageNet 128×128上達到2.97的FID，在ImageNet 256×256達到4.59，在ImageNet 512×512達到7.72，即使每個樣本僅需25次正向傳遞，我們也與BigGAN-deep持平，同時仍保持更好的分佈覆蓋。最後我們發現分類器指導與上採樣擴散模型相結合，進一步提高了在ImageNet 256×256和ImageNet 512×512上的FID值，分別達到3.94和3.85。
論文連結：https://arxiv.org/pdf/2105.05233.pdf

10. Cascaded Diffusion Models (CDM)

論文名稱：Cascaded Diffusion Models for High Fidelity Image Generation
發布時間：2021/05/30
發布單位：Google
中文摘要：我們展示了串聯式擴散模型在類別條件的ImageNet生成基準測試上能夠生成高保真度的圖像，而無需輔助的圖像分類器來提升樣本品質。串聯式擴散模型包含多個擴散模型的傳遞途徑，從最低解析度開始生成圖像，使用標準擴散模型，然後是一個或多個超解析度擴散模型，逐步對圖像進行上採樣並添加更高解析度的細節。我們發現串聯傳遞途徑的樣本品質關鍵取決於條件增強，這是我們提出的對超解析度模型中低解析度條件輸入的數據增強方法。最後我們的實驗顯示，條件增強可防止在串聯模型中取樣過程中的錯誤累積，使我們能夠訓練串聯傳遞途徑，在64x64解析度下達到1.48的FID分數，在128x128下達到3.52，在256x256下達到4.88，優於BigGAN-deep，並在256x256解析度下達到63.02％（top-1）和84.06％（top-5）的分類準確度，優於VQ-VAE-2。
論文連結：https://arxiv.org/pdf/2106.15282.pdf

11. Diffusion Schrödinger Bridge (DSB)

論文名稱：Diffusion Schrödinger Bridge with Applications to Score-Based Generative Modeling
發布時間：2021/06/01
發布單位：牛津大學、高等經濟商業學院
中文摘要：這篇論文探討了使用逐漸增加的高斯雜訊來轉換複雜的數據分布成近似高斯分布。逆轉這個過程形成了一個生成模型。先前SDE的研究中，展示了如何使用分數匹配來估計相關反向時間SDE的時間不均匀漂移。這種方法的局限性在於需要足夠長的正向時間SDE運行，才能使最終分布近似為高斯分布。相比之下解決Schrödinger Bridge問題（SB）在路徑空間上是一個熵正則化的最佳傳輸問題，可以得到在有限時間內從數據分布生成樣本的擴散過程。所以我們提出了Diffusion SB（DSB），這是對解決SB問題的迭代比例擬合（IPF）過程的原始近似，並提供了理論分析和生成建模實驗。第一個DSB迭代恢復了先前SDE研究提出的方法，可以使用更短的時間間隔，隨後的DSB迭代減少了正向（反向）SDE的最終時間邊緣與先驗（數據）分布之間的差異。除了生成建模外，DSB還提供了一個廣泛適用的計算最佳運輸工具，作為流行的Sinkhorn算法在連續狀態空間的類比。
論文連結：https://arxiv.org/pdf/2106.01357.pdf

12. Latent Score-based Generative Model (LSGM)

論文名稱：Score-based Generative Modeling in Latent Space
發布時間：2021/06/10
發布單位：Nvidia
中文摘要：最近基於分數的生成模型（SGMs）在樣本品質和分布涵蓋方面展現了令人印象深刻的成果。但是它們通常直接應用在數據空間中，並且常常需要數千次網絡評估來進行取樣。所以在這裡我們提出了潛在基於分數的生成模型（LSGM），這是一種新方法，它在潛在空間中訓練SGMs，並依賴變分自編碼器框架。從數據到潛在空間的轉移允許我們訓練更具表現力的生成模型，將SGMs應用於非連續數據，並在更小的空間中學習更平滑的SGMs，從而減少網絡評估次數並加快取樣速度。為了以可擴展且穩定的方式端到端訓練LSGMs，我們（i）引入了一個適用於LSGM設置的新的分數匹配目標，（ii）提出了一種新的分數函數參數化方式，使SGM能夠專注於目標分佈與簡單正態分佈之間的不匹配，（iii）推導了多種減少訓練目標方差的分析技術。最後LSGM在CIFAR-10上取得了2.10的最先進FID分數，超越了該數據集上所有現有的生成結果。在CelebA-HQ-256上，LSGM在樣本品質上與先前的SGMs持平，但取樣時間比它們快了兩個數量級。在建模二值圖像方面，LSGM在二值化的OMNIGLOT數據集上實現了最先進的可能性。
論文連結：https://arxiv.org/pdf/2106.05931.pdf

13. Variational Diffusion Models (VDM)

論文名稱：Variational Diffusion Models
發布時間：2021/07/01
發布單位：Google
中文摘要：擴散式生成模型在感知上呈現出令人印象深刻的合成能力，但它們也可以成為優秀的基於機率的模型嗎？答案是肯定的。所以我們引入了一系列擴散式生成模型，它們在標準圖像密度估計基準測試上獲得了最先進的機率似然性能。與其他擴散式模型不同，我們的方法可以有效地與模型的其餘部分一起優化雜訊進度。另外我們展示了變分下限（VLB）在擴散數據的訊雜比方面有一個非常簡潔的表達式，這提高了我們對這個模型類的理論理解。利用這一見解，我們證明了文獻中提出的幾個模型之間的等價性。此外我們也展示了連續時間VLB對於雜訊進度的不變性，除了在端點的訊雜比。這使我們能夠學習一個最小化VLB估計器方差的雜訊進度，從而加速優化過程。將這些進展與架構改進相結合，在圖像密度估計基準測試中實現了最先進的概率似然性能，超越了多年來主導這些基準測試的自回歸模型，且優化速度通常更快。最後我們展示了如何將該模型用作位元回收壓縮方案的一部分，並展示了接近理論最佳的無損壓縮率。
論文連結：https://arxiv.org/pdf/2107.00630.pdf

14. D3PM

論文名稱：Structured Denoising Diffusion Models in Discrete State-Spaces
發布時間：2021/07/07
發布單位：Google
中文摘要：我們介紹了「離散去雜訊擴散機率模型」（D3PMs），這是針對離散數據的擴散式生成模型，擴展了先前提出的多項式擴散模型，進一步超越了使用均勻過渡機率的損壞過程。我們引入了不同的過渡矩陣，模擬連續空間中的高斯核心、基於嵌入空間的最近鄰近矩陣，以及引入吸收狀態的矩陣。這些變化讓我們能將擴散模型與自回歸和基於遮罩的生成模型聯繫起來。另外我們發現過渡矩陣的選擇對於圖像和文本領域的結果有顯著影響。同時我們提出了一個新的損失函數，結合了變分下界和輔助交叉熵損失。在文本方面，這種模型在 LM1B 上以字符級別的文本生成取得了強大成果，同時也能擴展至大型詞彙。在圖像數據集 CIFAR-10 上，我們的模型接近了樣本的品質，甚至超越了連續空間 DDPM 模型的對數概率。
論文連結：https://arxiv.org/pdf/2107.03006.pdf

15. SDEdit

論文名稱：SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations
發布時間：2021/08/02
發布單位：史丹佛大學、卡內基麥隆大學
中文摘要：引導式圖像合成讓一般使用者能夠輕鬆地創建和編輯逼真的照片。不過主要挑戰在於在合成圖像時平衡保持對用戶輸入（例如手繪彩色筆劃）的保真度和圖像的真實感。現有基於GAN的方法嘗試通過條件GAN或GAN逆向來實現此平衡，但這些方法往往具有挑戰性，並且通常需要額外的訓練數據或損失函數來滿足個別應用。為解決這些問題，我們提出了一種新的圖像合成和編輯方法，名為隨機微分編輯（SDEdit），基於擴散模型生成先驗，通過隨機微分方程（SDE）逐步去雜訊以合成逼真的圖像。給定任何類型的輸入圖像和用戶指導，SDEdit首先對輸入圖像添加雜訊，然後通過SDE先驗進行去雜訊，以提高圖像的真實感。另外SDEdit不需要特定任務的訓練或逆向，能夠自然地平衡真實感和保真度。在多項任務上，包括基於筆劃的圖像合成和編輯以及圖像合成，SDEdit在逼真度和整體滿意度得分上顯著優於最先進的基於GAN的方法，根據人類感知研究的結果，最高提升達到了98.09%和91.72%。
論文連結：https://arxiv.org/pdf/2108.01073.pdf

16. ILVR

論文名稱：ILVR: Conditioning Method for Denoising Diffusion Probabilistic Models
發布時間：2021/08/06
發布單位：首爾大學、Samsung
中文摘要：DDPM 在無條件圖像生成方面表現出色。但是由於 DDPM 中生成過程的隨機性，要生成具有所需語義的圖像是具有挑戰性的。所以我們提出了 ILVR（Iterative Latent Variable Refinement），這是一種引導 DDPM 生成過程的方法，以根據給定的參考圖像生成高品質的圖像。ILVR 的方法在 DDPM 中改善了生成過程，使單個 DDPM 能夠根據參考圖像生成來自不同集合的圖像。透過 ILVR 方法，我們能夠在生成圖像時控制品質，並且可以在各種圖像生成任務中適應單個 DDPM 而無需額外學習，例如從不同的下採樣因子生成、多領域圖像轉換、塗鴉生成圖像以及用涂鴉進行編輯。
論文連結：https://arxiv.org/pdf/2108.02938.pdf

17. Autoregressive Diffusion Models (ARDM)

論文名稱：Autoregressive Diffusion Models
發布時間：2021/10/05
發布單位：Google
中文摘要：我們引入了自回歸擴散模型（ARDMs），這是一種模型類別，包含並概括了不考慮順序的自回歸模型和吸收離散擴散。我們展示了在溫和的假設下，這些模型都是ARDMs的特殊情況。ARDMs易於實現且易於訓練。與標準的自回歸模型不同，它們不需要對模型表徵進行因果掩碼，並且可以使用類似於現代機率擴散模型的高效目標進行訓練，適用於高維度數據。在測試時，ARDMs支持並行生成，可以根據給定的生成預算進行調整。我們也發現ARDMs所需的步驟比離散擴散模型少得多，即可達到相同的性能。最後我們將ARDMs應用於無損壓縮，並展示它們非常適合這項任務。與現有基於bits-back編碼的方法不同，ARDMs在完整數據集上不僅獲得引人注目的結果，而且在壓縮單個數據點時也取得了令人滿意的效果。此外這可以使用少量的網絡呼叫來進行（解）壓縮，因為模型具有適應性的並行生成能力。
論文連結：https://arxiv.org/pdf/2110.02037.pdf

18. DiffusionCLIP

論文名稱：DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation
發布時間：2021/10/06
發布單位：韓國科學技術院
中文摘要：近期結合生成對抗網絡反轉方法和對比語言-圖像預訓練（CLIP）技術，使得透過文字提示進行零樣本圖像操作成為可能。但是它們在多樣的真實圖像應用方面仍然存在困難，這是由於有限的生成對抗網絡反轉能力所致。特別是這些方法在重建具有新的姿勢、視角和高度變化內容的圖像方面遇到困難，這些圖像與訓練數據相比，可能會修改物體身份或產生不需要的圖像瑕疵。所以為了減輕這些問題並實現對真實圖像的準確操作，我們提出了一種新方法，稱為DiffusionCLIP，該方法使用擴散模型進行基於文本的圖像操作。基於最近擴散模型的完全反轉能力和高品質的圖像生成能力，我們的方法成功實現了零樣本圖像操作，甚至可以在未見過的領域之間進行操作，並通過操作來自多樣的ImageNet數據集的圖像，更進一步地應用於一般情況。此外我們提出了一種新的雜訊組合方法，可以實現直觀的多屬性操作。最後我們在豐富的實驗和人工評估證實，我們的方法在操作性能上比現有基準方法更為穩健和優越。
論文連結：https://arxiv.org/pdf/2110.02711.pdf

19. Palette

論文名稱：Palette: Image-to-Image Diffusion Models
發布時間：2021/11/10
發布單位：Google
中文摘要：這篇論文發展了一個統一的框架，用於基於條件擴散模型的影像轉換，並在四個具有挑戰性的影像轉換任務上進行評估，包括上色、修補、取消裁剪和JPEG修復。我們簡單的影像轉換擴散模型在所有任務上均優於強大的GAN和回歸基線，而無需特定任務的超參數調整、架構自定義，或任何輔助損失或複雜的新技術。我們發現在去雜訊擴散目標中的L2與L1損失對樣本多樣性的影響，並通過實驗研究展示了神經架構中自注意力的重要性。重要的是我們提倡基於ImageNet的統一評估協議，包括人工評估和樣本品質分數（FID、Inception Score、預訓練ResNet-50的分類準確度，以及與原始圖像的感知距離）。我們期望這種標準化的評估協議能推動影像轉換研究的進步。最後我們展示了一個通用的多任務擴散模型與特定任務訓練的模型相比表現同樣好甚至更好。
論文連結：https://arxiv.org/pdf/2111.05826.pdf

20. Blended Diffusion (BD)

論文名稱：Blended Diffusion for Text-driven Editing of Natural Images
發布時間：2021/11/29
發布單位：耶路撒冷希伯來大學、賴赫曼大學
中文摘要：本文介紹了在通用自然圖像中執行局部（基於區域的）編輯的首個解決方案，該解決方案基於自然語言描述和ROI（感興趣區域）遮罩。我們利用預訓練的語言-圖像模型（CLIP）引導編輯至用戶提供的文本提示，同時結合一個去雜訊擴散概率模型（DDPM）來生成自然外觀的結果。為了無縫地將編輯區域與圖像中未更改的部分融合在一起，我們在一系列雜訊程度下，將輸入圖像的帶雜訊版本與局部文本引導的擴散潛在進行空間混合。此外我們顯示將增強功能添加到擴散過程中有助於減輕對抗性結果。我們在品質和量化方面與多個基線方法進行比較，顯示了我們的方法在整體逼真度、保留背景以及匹配文本方面優於這些解決方案。最後我們展示了幾個基於文本的編輯應用，包括向圖像添加新對象，移除/替換/修改現有對象，更改背景以及圖像推斷。
論文連結：https://arxiv.org/pdf/2111.14818.pdf

21. VQ-Diffusion

論文名稱：Vector Quantized Diffusion Model for Text-to-Image Synthesis
發布時間：2021/11/29
發布單位：中國科學技術大學、Microsoft
中文摘要：我們提出了向量量化擴散（VQ-Diffusion）模型，用於文字到圖像的生成。這種方法基於一種向量量化變分自編碼器（VQ-VAE），其潛在空間由最近發展的去雜訊擴散機率模型（DDPM）的條件變種建模。我們發現這種潛在空間方法很適合文字到圖像生成任務，因為它不僅消除了現有方法的單向偏差，還允許我們採用遮罩和替換擴散策略，來避免錯誤累積的嚴重問題。我們的實驗顯示，與具有相似參數數量的常規自回歸（AR）模型相比，VQ-Diffusion在文字到圖像生成方面產生了顯著更好的結果。與先前基於GAN的文字到圖像方法相比，我們的VQ-Diffusion可以處理更複雜的場景，並大幅提高合成圖像的品質。最後我們顯示在我們的方法中，圖像生成計算可以通過重新參數化變得非常高效。對於傳統的自回歸方法，文字到圖像的生成時間隨著輸出圖像的解析度呈線性增加，即使對於常規大小的圖像，這也相當耗時。VQ-Diffusion允許我們在品質和速度之間取得更好的折衷。我們的實驗表明，具有重新參數化的VQ-Diffusion模型比傳統的自回歸方法快15倍，同時實現了更好的圖像品質。
論文連結：https://arxiv.org/pdf/2111.14822.pdf

22. DDPM-Seg

論文名稱：Label-Efficient Semantic Segmentation with Diffusion Models
發布時間：2021/12/06
發布單位：Yandex
中文摘要：近來去雜訊擴散機率模型受到了廣泛的研究關注，因為它們優於其他方法（如 GANs），目前在生成方面表現卓越。擴散模型的優異性使其成為多種應用的理想工具，包括修補、超解析和語義編輯。所以本文中我們展示了擴散模型還可作為語義分割的工具，特別是在標註數據稀缺的情況下。具體而言對於幾個預訓練的擴散模型，我們研究了執行反向擴散過程的網絡的中間激勵。我們展示了這些激勵能夠有效地捕捉輸入圖像的語義訊息，並顯示出在分割問題中為優秀的像素級表徵。基於這些觀察，我們描述了一種簡單的分割方法，即使只提供了少量訓練圖像，也能發揮作用。最後我們的方法在同樣少量的人工監督下，顯著優於現有的替代方法在多個數據集上的表現。
論文連結：https://arxiv.org/pdf/2112.03126.pdf

23. Denoising Diffusion GAN

論文名稱：Tackling the Generative Learning Trilemma with Denoising Diffusion GANs
發布時間：2021/12/15
發布單位：芝加哥大學、Nvidia
中文摘要：過去十年開發了各種深度生成模型，但這些模型通常在三個關鍵要求上遇到困難：高樣本品質、模式覆蓋和快速取樣。我們稱這些要求帶來的挑戰為生成學習三難題，因為現有模型經常在這些要求之間進行權衡。特別是去雜訊擴散模型展現了出色的樣本品質和多樣性，但它們昂貴的取樣速度限制了在許多實際應用中的應用。所以本文認為這些模型中的慢速取樣，基本上歸因於去雜訊步驟中的高斯假設，這僅對小步長合理。為了實現大步長的去雜訊，從而減少總體去雜訊步驟的數量，我們建議使用複雜的多模態分佈來建模去雜訊分佈。我們引入了去雜訊擴散生成對抗網絡（denoising diffusion GANs），它使用多模態條件GAN來建模每個去雜訊步驟。通過大量評估，我們展示了去雜訊擴散GAN在CIFAR-10數據集上取得了與原始擴散模型競爭力相當的樣本品質和多樣性，同時速度快了2000倍。與傳統GAN相比，我們的模型展示了更好的模式涵蓋和樣本多樣性。據我們所知，去雜訊擴散GAN是第一個將擴散模型的取樣成本降低到可以廉價應用於實際應用的模型。
論文連結：https://arxiv.org/pdf/2112.07804.pdf

24. GLIDE

論文名稱：GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models
發布時間：2021/12/20
發布單位：OpenAI
中文摘要：最近擴散模型展示了生成高品質合成圖像的能力，尤其是當結合指導技術來在多樣性和保真度之間取得平衡時。所以我們探索了擴散模型在文本條件下生成圖像的問題，並比較了兩種不同的指導策略：CLIP指導和無分類器的指導。我們發現人類評估者更偏好後者，因為它在逼真度和標題相似性方面表現較佳，並且通常能生成逼真的樣本。即使後者使用昂貴的CLIP重新排名，人類評估者更喜歡一個使用無分類器指導的、擁有35億參數文本條件下的擴散模型的樣本，而不是來自DALL-E的樣本。此外我們發現我們的模型可以進行微調，以執行圖像修補，實現了強大的文本驅動圖像編輯能力。
論文連結：https://arxiv.org/pdf/2112.10741.pdf

25. Latent Diffusion Models (LDM)

論文名稱：High-Resolution Image Synthesis with Latent Diffusion Models
發布時間：2021/12/20
發布單位：慕尼黑大學、Runway ML
中文摘要：將圖像形成過程拆解成一系列的去雜訊自編碼器應用，擴散模型（DMs）在圖像數據及其他領域取得了最先進的合成結果。此外它們的構建允許引導機制來控制圖像生成過程而無需重新訓練。但是因為這些模型通常直接在像素空間中操作，優化強大的DMs通常需要耗費數百個GPU日，並且推論費用昂貴，因為需要進行連續評估。所以為了在有限的計算資源上訓練DMs並保持它們的品質和靈活性，我們將它們應用在強大預訓練自編碼器的潛在空間中。與以往的工作不同，將擴散模型訓練在這種表徵形式上，首次實現了在複雜性減少和細節保留之間接近最佳點，極大地提升了視覺保真度。通過在模型架構中引入交叉注意力層，我們將擴散模型轉化為強大靈活的生成器，能夠處理通用的條件輸入，如文本或邊界框，並以卷積方式實現高解析度合成。我們的潛在擴散模型（LDMs）在圖像修復上達到了新的最先進水準，在各種任務上表現出高競爭力，包括無條件圖像生成、語義場景合成和超解析度，同時與基於像素的DMs相比，顯著減少了計算需求。
論文連結：https://arxiv.org/pdf/2112.10752.pdf

26. RePaint

論文名稱：RePaint: Inpainting using Denoising Diffusion Probabilistic Models
發布時間：2022/01/24
發布單位：蘇黎世聯邦理工學院
中文摘要：自由形式修補是在由任意二元遮罩指定的區域向圖像添加新內容的任務。大多數現有方法訓練於特定遮罩分佈，這限制了它們對未見遮罩類型的泛化能力。此外使用像素級和感知損失進行訓練通常會導致對缺失區域進行簡單的紋理擴展，而非具有語義意義的生成。所以在這項工作中，我們提出了 RePaint：基於去雜訊擴散機率模型（DDPM）的修補方法，適用於極端遮罩。我們使用預訓練的無條件 DDPM 作為生成先驗。為了條件化生成過程，我們僅通過使用給定圖像訊息對未遮罩區域進行反向擴散迭代的抽樣。由於這種技術不修改或條件化原始 DDPM 網絡本身，模型能夠針對任何修補形式生成高品質且多樣化的輸出圖像。最後我們驗證了我們的方法在臉部和通用圖像修補上的效果，包括使用標準和極端遮罩。RePaint 在六種遮罩分佈中至少有五種的表現優於最先進的自回歸和GAN方法。
論文連結：https://arxiv.org/pdf/2201.09865.pdf

27. Denoising Diffusion Restoration Models (DDRM)

論文名稱：Denoising Diffusion Restoration Models
發布時間：2022/01/27
發布單位：以色列理工學院、史丹佛大學、Nvidia
中文摘要：這篇論文討論了圖像修復中的線性反問題，提出了一種新的方法：Denoising Diffusion Restoration Models（DDRM）。這種方法利用預先訓練的去雜訊擴散生成模型，能有效地解決各種圖像修復任務，如超解析度、去模糊、修補和上色。相較於其他無監督方法，DDRM在圖像重建品質、感知品質和執行時間方面表現更優越，在ImageNet數據集上比競爭者快了5倍。同時DDRM在觀測訓練集以外的自然圖像中也表現出很好的泛化能力。
論文連結：https://arxiv.org/pdf/2201.11793.pdf

28. Diffusion Distillation

論文名稱：Progressive Distillation for Fast Sampling of Diffusion Models
發布時間：2022/08/02
發布單位：Google
中文摘要：這份論文探討了擴散模型在生成建模方面的潛力，優於生成對抗網絡（GANs）在感知品質和自回歸模型在密度估計方面的表現。不過它們的採樣速度較慢，生成高品質的樣本需要許多模型評估。所以為解決這個問題，該研究提出兩種方法：首先，提出了新的擴散模型參數化方法，能在少數採樣步驟時提高穩定性。其次，提出了一種方法，將經過多步採樣的訓練擴散採樣器提煉成需要步驟數一半的新擴散模型。在標準的圖像生成基準測試中，從原先需要8192步的最先進採樣器，我們成功提煉出在4步採樣下仍保持了良好感知品質的模型，例如在CIFAR-10上達到了FID指標3.0。最後實驗顯示完整的漸進提煉過程所需時間不多於訓練原始模型的時間，為在訓練和測試時使用擴散進行生成建模提供了高效的解決方案。
論文連結：https://arxiv.org/pdf/2202.00512.pdf

29. PNDM

論文名稱：Pseudo Numerical Methods for Diffusion Models on Manifolds
發布時間：2022/02/20
發布單位：魏茲曼科學研究院
中文摘要：Denoising Diffusion Probabilistic Models（DDPMs）可以生成高品質的樣本，如圖像和音訊樣本。但是 DDPMs 需要數百到數千次迭代才能生成最終樣本。雖然先前的研究成功地加速了 DDPMs，通過調整變異數進程（例如改進的 Denoising Diffusion Probabilistic Models）或去雜訊方程（例如 Denoising Diffusion Implicit Models (DDIMs)）。但是這些加速方法無法保持樣本的品質，甚至在高速度加速時引入新的雜訊，限制了它們的實用性。所以為了加速推斷過程同時保持樣本品質，我們提供了一個新的觀點，認為應該將 DDPMs 視為在流形上解微分方程。在這樣的觀點下，我們提出了擴散模型的虛擬數值方法（PNDMs）。具體來說，我們找出了如何在流形上解微分方程，並展示了 DDIMs 是虛擬數值方法的簡單案例。我們將幾種經典數值方法改為相應的虛擬數值方法，發現虛擬線性多步方法在大多數情況下效果最好。根據我們的實驗，在 Cifar10、CelebA 和 LSUN 上直接使用預訓練模型，相較於 1000 步的 DDIMs（加速 20 倍），PNDMs 只需 50 步即可生成更高品質的合成圖像，明顯優於 250 步的 DDIMs（FID 提高約 0.4），並且在不同變異數進程下具有良好的泛化性能。
論文連結：https://arxiv.org/pdf/2202.09778.pdf

30. DALL-E 2

論文名稱：Hierarchical Text-Conditional Image Generation with CLIP Latents
發布時間：2022/04/13
發布單位：OpenAI
中文摘要：對比模型（例如 CLIP）已證明能學習到具有語義和風格的圖像穩健表徵。為了利用這些表示生成圖像，我們提出了一個兩階段模型：一個先驗模型根據文本標題生成 CLIP 圖像嵌入，以及一個解碼器根據圖像嵌入生成圖像。我們發現明確生成圖像表徵可提高圖像多樣性，同時僅稍微降低了逼真度和標題相似度。我們的解碼器可根據圖像表徵生成保留語義和風格的圖像變化，同時改變圖像表示中缺失的非關鍵細節。此外CLIP 的聯合嵌入空間能以零樣本方式進行語言引導的圖像操作。最後我們使用擴散模型作為解碼器，並嘗試先驗模型使用自回歸和擴散模型，發現後者在計算效率和生成品質方面更優。
論文連結：https://arxiv.org/pdf/2204.06125.pdf

31. Diffusion Exponential Integrator Sampler (DEIS)

論文名稱：Fast Sampling of Diffusion Models with Exponential Integrator
發布時間：2022/04/29
發布單位：喬治亞理工學院
中文摘要：近年來Diffusion Models（DMs）在生成高保真度樣本的生成建模任務中取得了巨大成功。但是DM的主要限制是其慢速的取樣過程，通常需要數百到數千個時間離散化步驟來達到所需的準確度。所以我們的目標是開發一種快速的DM取樣方法，使用更少的步驟，同時保持高品質的樣本。為此我們系統地分析了DM的取樣過程，確定了影響樣本品質的關鍵因素，其中離散化方法是最關鍵的。通過仔細檢驗學習的擴散過程，我們提出了Diffusion Exponential Integrator Sampler（DEIS）。它基於設計用於離散化常微分方程（ODEs）的指數積分器，並利用學習的擴散過程的半線性結構來減少離散化誤差。這個方法可以應用於任何DMs，在僅需10個步驟的情況下生成高保真度的樣本。此外通過直接使用預先訓練的DMs，在限制評分函數評估次數（NFE）的情況下，我們在CIFAR10上實現了最先進的取樣性能，例如在10個NFE的情況下達到了4.17的FID，在15個NFE的情況下達到了3.37的FID和9.74的IS。
論文連結：https://arxiv.org/pdf/2204.13902.pdf

32. Imagen

論文名稱：Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
發布時間：2022/05/23
發布單位：Google
中文摘要：我們介紹了 Imagen，一種具有前所未有的逼真度和深度語言理解的文本到圖像擴散模型。Imagen 建立在大型轉換器語言模型理解文本的強大能力上，並依賴擴散模型在生成高保真度圖像方面的優勢。我們的主要發現是，通用的大型語言模型（例如 T5）在僅訓練於純文本語料庫的情況下，對於編碼用於圖像合成的文本非常有效：Imagen 中的語言模型的大小增加會比提升圖像擴散模型的大小更顯著地提高樣本的保真度和圖像與文本的一致性。Imagen 在 COCO 數據集上實現了全新的 FID（評估圖像合成品質的指標）得分，達到 7.27，而且完全未在 COCO 數據上進行訓練。另外人工評測者認為 Imagen 的樣本在圖像與文本之間的一致性與 COCO 數據本身相當。為了更全面評估文本到圖像模型，我們引入了 DrawBench，這是一個全面且具有挑戰性的文本到圖像模型基準測試。通過 DrawBench，我們將 Imagen 與 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2 等最新方法進行比較，並發現在人工評比中，評鑑者傾向於選擇 Imagen，無論是在樣本品質還是圖像與文本的一致性方面。
論文連結：https://arxiv.org/pdf/2205.11487.pdf

33. Implicit Nonlinear Diffusion Model (INDM)

論文名稱：Maximum Likelihood Training of Implicit Nonlinear Diffusion Models
發布時間：2022/05/27
發布單位：韓國科學技術院、NAVER CLOVA
中文摘要：這篇論文探討了擴散模型的多樣變體，很少有作品將線性擴散擴展為非線性擴散過程。雖然人們對非線性效應的了解很有限，但直覺上，這可能會產生有利的擴散模式，有效地將生成分佈訓練至數據分佈。所以這篇論文引入了一種用於基於分數的擴散模型的數據自適應非線性擴散過程。所提出的Implicit Nonlinear Diffusion Model（INDM）通過結合歸一化流和擴散過程來進行學習。具體而言，INDM通過在潛在空間上的線性擴散，透過流網絡在數據空間上隱式構建非線性擴散。這種流網絡是形成非線性擴散的關鍵，因為非線性取決於流網絡。這種靈活的非線性改善了INDM的學習曲線，使其接近最大似然估計（MLE），而不是像DDPM++那樣的非MLE曲線，後者是INDM的一個不靈活的版本，其中流固定為恆等映射。此外INDM的離散化表現顯示了其抽樣的穩健性。在實驗中，INDM在CelebA數據集上實現了最先進的FID值為1.75。
論文連結：https://arxiv.org/pdf/2205.13699.pdf

34. EDM

論文名稱：Elucidating the Design Space of Diffusion-Based Generative Models
發布時間：2022/06/01
發布單位：Nvidia
中文摘要：我們認為基於擴散生成模型的理論和實踐目前過於複雜，我們希望通過提出一個設計空間來糾正這種情況，清晰地區分具體的設計選擇。這讓我們識別出對取樣和訓練過程以及分數網絡的預處理進行了幾項改變。通過這些改進，我們在CIFAR-10的有條件設置下取得了新的最佳FID，為1.79，在無條件設置下為1.97，並且比先前的設計速度更快（每圖像35次網絡評估）。為了進一步展示其模塊化特性，我們表明我們的設計變化顯著改進了來自先前工作中預訓練得分網絡的效率和品質，包括將先前訓練的ImageNet-64模型的FID從2.07改進到接近最佳1.55，並且在使用我們提出的改進重新訓練後，達到新的最佳1.36。
論文連結：https://arxiv.org/pdf/2206.00364.pdf

35. DPM-Solver

論文名稱：DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps
發布時間：2022/06/02
發布單位：北京清華大學、中國人民大學
中文摘要：擴散機率模型（DPM）是新興的強大生成模型。儘管它們能夠產生高品質的圖像，但是取樣速度仍然很慢，通常需要對大型神經網絡進行數百或數千個順序函數評估（步驟）才能抽取一個樣本。不過從DPMs進行取樣可以被看作是解對應擴散常微分方程（ODEs）。所以在這項工作中，我們提出了對擴散ODEs解的一個確切公式。該公式分析計算解的線性部分，而不像以前的論文那樣將所有項留給黑箱ODE求解器。通過應用變量的變換，解可以等效地簡化為神經網絡的指數加權積分。基於我們的公式，我們提出了DPM-Solver，一種用於擴散ODEs的快速、高階求解器，具有收斂次序保證。DPM-Solver適用於離散時間和連續時間的DPMs，無需進行進一步的訓練。實驗結果表明，DPM-Solver在各種數據集上只需進行10到20次函數評估就能生成高品質的樣本。在CIFAR10數據集上，我們實現了4.70 FID（在10次函數評估）和2.87 FID（在20次函數評估），與以前最先進的無需訓練的取樣器相比，速度提升了4∼16倍。
論文連結：https://arxiv.org/pdf/2206.00927.pdf

36. CARD

論文名稱：CARD: Classification and Regression Diffusion Models
發布時間：2022/06/15
發布單位：德克薩斯大學奧斯汀分校
中文摘要：透過給定特徵 x 預測連續或分類回應變數 y 的分佈，是統計和機器學習中的基本問題。基於深度神經網絡的監督式學習算法在預測 y 在給定 x 時的平均值方面取得了巨大進步，但它們通常被批評難以準確捕捉其預測的不確定性。所以本文引入了分類和回歸擴散（CARD）模型，結合了基於去雜訊擴散的條件生成模型和預先訓練的條件均值估計器，以準確預測在給定 x 時 y 的分佈。我們通過範例和真實數據集展示了CARD在條件分佈預測方面的優異能力，實驗結果表明，CARD通常優於最先進的方法，包括專門用於不確定性估計的基於貝葉斯神經網絡的方法，特別是在 y 在給定 x 時的條件分佈是多峰的情況下。此外我們利用生成模型輸出的隨機性質，為分類任務在實例級別獲得更細微的模型信心評估。
論文連結：https://arxiv.org/pdf/2206.07275.pdf

37. Prompt-to-Prompt

論文名稱：Prompt-to-Prompt Image Editing with Cross Attention Control
發布時間：2022/08/02
發布單位：Google、臺拉維夫大學
中文摘要：近期的大規模文字驅動合成模型因其出色的能力吸引了許多關注，能根據給定的文字提示生成高度多樣的圖像。這種基於文字的合成方法特別吸引人，因為人們習慣用語言描述自己的意圖。因此將基於文字的圖像合成擴展到基於文字的圖像編輯是很自然的。對於這些生成模型來說，編輯是具有挑戰性的，因為編輯技術的一個固有特性是保留大部分原始圖像，而在基於文字的模型中，即使輕微修改文字提示，往往也會導致完全不同的結果。最先進的方法通過要求用戶提供空間遮罩以定位編輯，從而忽略了遮罩區域內的原始結構和內容。所以在這篇論文中，我們追求一個直觀的基於提示的編輯框架，其中編輯僅由文字控制。為此我們深入分析了一個文字條件模型，並觀察到交叉注意力層是控制圖像的空間佈局與提示中的每個詞之間關係的關鍵。基於這一觀察，我們提出了幾種應用，通過僅編輯文本提示來監控圖像合成。這包括通過替換單詞進行局部編輯、通過添加特定描述進行全局編輯，甚至精細地控制單詞在圖像中的反映程度。我們展示了在不同圖像和提示上的結果，展現了高品質的合成和對編輯提示的保真度。
論文連結：https://arxiv.org/pdf/2208.01626.pdf

38. Textual Inversion

論文名稱：An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
發布時間：2022/08/02
發布單位：臺拉維夫大學、Nvidia
中文摘要：文字到圖像轉換模型提供前所未有的自由度，可通過自然語言引導創作。但是如何利用這樣的自由度來生成特定獨特概念的圖像，修改它們的外觀，或將它們組合在新的場景中，目前還不清楚。換句話說，我們問：如何使用語言引導模型將我們的貓變成一幅畫，或基於我們喜歡的玩具想像一種新產品呢？我們提出了一種簡單的方法，讓這種創意自由成為可能。僅使用用戶提供的概念的3–5張圖像，比如一個物體或風格，我們學會在凍結的文字轉圖模型的嵌入空間中通過新的「詞」來表徵它。這些「詞」可以組合成自然語言句子，以直觀的方式引導個性化創作。值得注意的是，我們發現單個詞嵌入足以捕捉獨特且多樣的概念。我們將我們的方法與各種基準進行了比較，並證明它能夠更忠實地呈現一系列概念在不同應用和任務中的表現。
論文連結：https://arxiv.org/pdf/2208.01618.pdf

39. DreamBooth

論文名稱：DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
發布時間：2022/08/25
發布單位：Google、波士頓大學
中文摘要：這篇論文探討了大型文本到圖像模型在人工智慧進化中的重大進展，使得模型能夠根據給定的文本提示，高品質且多樣化地合成圖像。但是這些模型缺乏模仿特定參考集中主題外觀的能力，並在不同情境中合成其新的演繹。所以我們提出了一種新的方法，用於個性化文本到圖像擴散模型。通過僅提供該主題的少量圖像作為輸入，我們微調預訓練的文本到圖像模型，使其學會將唯一標識符與特定主題綁定。一旦主題嵌入到模型的輸出領域中，該唯一標識符可用於在不同場景中合成主題的新逼真圖像。利用模型中的語義先驗和新的自生成類別特定先驗保留損失，我們的技術能夠合成在參考圖像中未出現的不同場景、姿勢、視角和光線條件下的主題。我們將這種技術應用於幾個以前無法攻克的任務，包括主題再語境化、文本導向視角合成和藝術渲染，同時保留主題的主要特徵。同時我們還提供了這一新任務的新數據集和評估協議。
論文連結：https://arxiv.org/pdf/2208.12242.pdf

40. Distillation of Guided Diffusion Models

論文名稱：On Distillation of Guided Diffusion Models
發布時間：2022/10/06
發布單位：史丹佛大學、Stability AI、Google
中文摘要：最近無需分類器的引導擴散模型在高解析度圖像生成方面表現出高效能，並被廣泛應用於包括DALLE-2、Stable Diffusion和Imagen在內的大型擴散框架中。但是無需分類器的引導擴散模型的一個缺點是，在推論時需要評估兩個擴散模型，一個是類別條件模型，一個是無條件模型，需要數十到數百次。為了克服這個限制，我們提出了一種將無需分類器的引導擴散模型轉化為快速取樣模型的方法：給定一個預先訓練的無需分類器的引導模型，我們首先學習一個模型來匹配結合條件和無條件模型的輸出，然後逐步將該模型轉化為需要更少取樣步驟的擴散模型。對於在像素空間上訓練的標準擴散模型，我們的方法能夠在ImageNet 64x64和CIFAR-10上僅使用4個取樣步驟生成與原始模型相當的視覺效果圖像，同時取樣速度最高可提升256倍，並達到與原始模型相當的FID/IS分數。對於在潛在空間（例如Stable Diffusion）訓練的擴散模型，我們的方法能夠在ImageNet 256x256和LAION數據集上僅使用1到4個去雜訊步驟生成高保真度圖像，相較現有方法至少提升10倍的推論速度。我們進一步展示了我們方法在文本引導的圖像編輯和修補方面的有效性，我們的精煉模型能夠僅使用2–4個去雜訊步驟生成高品質的結果。
論文連結：https://arxiv.org/pdf/2210.03142.pdf

41. Imagic

論文名稱：Imagic: Text-Based Real Image Editing with Diffusion Models
發布時間：2022/10/17
發布單位：Google、以色列理工學院、魏茲曼科學研究院
中文摘要：這份論文關於「以文字為條件的圖像編輯」引起了相當大的關注。但是現有的大多數方法通常只限於特定的編輯類型（例如：物件覆蓋、風格轉移），或者僅適用於合成生成的圖像，或者需要多張相同物件的輸入圖像。所以在這篇論文中，我們首次展示了對單張真實圖像進行複雜的（例如：非剛性）文字引導的語義編輯的能力。例如我們可以改變圖像中一個或多個物件的姿勢和構圖，同時保留其原始特性。我們的方法可以讓站立的狗坐下或跳躍，讓鳥展開翅膀等等 — 每個編輯都在用戶提供的單張高解析度自然圖像中進行。與以往的工作不同，我們的方法僅需單一輸入圖像和目標文字（期望進行的編輯）。它適用於真實圖像，並且不需要任何額外的輸入（例如圖像遮罩或物件的其他視角）。我們稱這個方法為「Imagic」，它利用了預訓練的文本到圖像擴散模型。它生成一個與輸入圖像和目標文字都匹配的文本嵌入，同時微調擴散模型以捕捉圖像的特定外觀。我們在各種領域的眾多輸入上展示了我們方法的品質和多功能性，展示了豐富且高品質的複雜語義圖像編輯，全部在一個統一的框架內完成。
論文連結：https://arxiv.org/pdf/2210.09276.pdf

42. eDiff-I

論文名稱：eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers
發布時間：2022/11/02
發布單位：Nvidia
中文摘要：大規模擴散型生成模型在文字條件下的高解析度圖像合成方面取得了突破。這些文字到圖像的擴散模型從隨機雜訊開始，以迭代方式生成圖像，同時以文字提示作為條件。我們發現它們的合成行為在這個過程中有品質上的變化：在取樣的早期階段，生成強烈依賴文字提示來生成與文字相關的內容，而後來幾乎完全忽略了文字條件。這表明在整個生成過程中共享模型參數可能不是最理想的。因此與現有的工作相反，我們提出訓練一組針對不同合成階段專門化的文字到圖像擴散模型。為了保持訓練效率，我們最初訓練一個單一模型，然後將其分成專門訓練的模型，用於迭代生成過程的特定階段。我們的擴散模型集合名為eDiff-I，在保持相同推斷計算成本和保留高視覺品質的同時，改善了文字對齊，在標準基準上優於先前的大規模文字到圖像擴散模型。此外我們訓練模型以利用各種嵌入進行條件設定，包括T5文字、CLIP文字和CLIP圖像嵌入。我們展示了這些不同的嵌入導致了不同的行為。特別是CLIP圖像嵌入允許將參考圖像的風格直觀地轉移到目標文字到圖像的輸出。最後我們展示了一種使eDiff-I具有“以詞彙繪畫”的能力的技術。用戶可以選擇輸入文本中的詞彙並將其繪製在畫布上以控制輸出，這對於塑造心中所需的圖像非常方便。
論文連結：https://arxiv.org/pdf/2211.01324.pdf

43. InstructPix2Pix

論文名稱：InstructPix2Pix: Learning to Follow Image Editing Instructions
發布時間：2022/11/17
發布單位：加州大學柏克萊分校
中文摘要：我們提出了一種根據人類指令編輯圖像的方法：給定一張輸入圖片和一份文字指令告訴模型該如何操作，我們的模型會依照指令對圖片進行編輯。為了解決這個問題的訓練數據，我們結合了兩個大型預訓練模型的知識 — 一個語言模型（GPT-3）和一個文本到圖像模型（Stable Diffusion） — 生成了一個大型的圖像編輯示例數據集。我們的條件擴散模型InstructPix2Pix是通過這個生成的數據進行訓練的，在推理時可以應用到真實圖像和用戶編寫的指令上。由於它在正向傳播中進行編輯，不需要每個示例進行微調或反向傳播，我們的模型可以在幾秒鐘內快速編輯圖像。我們展示了對各種輸入圖像和文字指令的引人入勝的編輯結果。
論文連結：https://arxiv.org/pdf/2211.09800.pdf

44. Null-text Inversion

論文名稱：Null-text Inversion for Editing Real Images using Guided Diffusion Models
發布時間：2022/11/17
發布單位：Google、臺拉維夫大學
中文摘要：近期的文本引導擴散模型提供了強大的圖像生成能力。目前人們正在努力讓這些圖像能夠僅使用文字來進行直觀且多功能的修改。不過要使用這些最新工具修改真實圖像，首先必須將圖像通過有意義的文字提示轉換為預訓練模型的領域。所以本文介紹了一種準確的轉換技術，從而實現了基於文字的直觀圖像修改。我們提出的轉換包含兩個新的關鍵組件：(i) 擴散模型的關鍵轉換。儘管當前的方法旨在將隨機雜訊樣本映射到單個輸入圖像，我們使用單個關鍵雜訊向量來優化。我們證明直接轉換本身是不夠的，但確實為我們的優化提供了一個良好的錨點。(ii) NULL-text 優化，我們僅修改用於無分類器引導的無條件文本嵌入，而不是輸入文本嵌入。這樣可以保持模型權重和條件嵌入不變，從而實現基於提示的修改，同時避免繁瑣地調整模型權重。我們基於公開可用的穩定擴散模型所提出的 Null-text 轉換，在各種圖像和提示修改上進行了廣泛評估，展示了對真實圖像的高保真修改。
論文連結：https://arxiv.org/pdf/2211.09794.pdf

45. Plug-and-Play Diffusion

論文名稱：Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation
發布時間：2022/11/22
發布單位：魏茲曼科學研究院
中文摘要：這篇論文介紹了一個全新的框架，將文本轉圖模型推進到圖像轉換的領域。給定一張引導圖和目標文本提示，我們的方法利用預訓練的文本轉圖模型生成新的圖像，符合目標文本，同時保留源圖像的語義佈局。我們觀察並實證了在模型內部通過操控空間特徵和自注意力，可以精細控制生成的結構。這帶來了一種簡單有效的方法，將引導圖中提取的特徵直接注入到目標圖像的生成過程中，無需額外訓練或微調，適用於真實或生成的引導圖。我們展示了在多種文本引導的圖像轉換任務中取得了高品質的結果，包括將素描、粗略繪畫和動畫轉換為逼真的圖像，修改給定圖像中物體的類別和外觀，以及調整全局品質如光線和顏色。
論文連結：https://arxiv.org/pdf/2211.12572.pdf

46. Diffusion Transformers (DiT)

論文名稱：Scalable Diffusion Models with Transformers
發布時間：2022/12/19
發布單位：加州大學柏克萊分校、紐約大學
中文摘要：我們探索了一種基於Transformer架構的新型擴散模型。我們訓練了圖像的潛在擴散模型，將通常使用的U-Net骨幹替換為在潛在塊上運作的Transformer。通過Gflops測量的前向傳遞複雜性的觀察，我們分析了我們的Diffusion Transformers（DiTs）的可擴展性。我們發現具有更高Gflops的DiTs — 通過增加Transformer的深度/寬度或增加輸入字節的數量 — 一致具有較低的FID。除了具有良好的可擴展性特性外，我們最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256測試中表現優於以往所有擴散模型，並在後者達到了2.27的最新FID。
論文連結：https://arxiv.org/pdf/2212.09748.pdf

47. Muse

論文名稱：Muse: Text-To-Image Generation via Masked Generative Transformers
發布時間：2023/01/02
發布單位：Google
中文摘要：我們提出了Muse，一個文本到圖像的Transformer模型，其在實現最先進的圖像生成性能的同時比擴散或自回歸模型更高效。Muse在離散標記空間中進行了遮罩建模任務的訓練：給定從預訓練的大型語言模型（LLM）中提取的文本嵌入，Muse被訓練來預測隨機遮罩的圖像標記。與像素空間的擴散模型（例如Imagen和DALL-E 2）相比，Muse由於使用了離散標記並需要較少的取樣迭代，因此效率顯著提高；與自回歸模型（例如Parti）相比，Muse由於使用了並行解碼而更高效。使用預訓練的LLM使模型能夠細緻理解語言，轉化為高保真度的圖像生成，並理解視覺概念，如物體、它們的空間關係、姿態、數量等。我們的9億參數模型在CC3M上取得了6.06的最新SOTA分數。Muse的30億參數模型在零標記COCO評估中取得了7.88的FID分數，以及0.32的CLIP分數。Muse還直接實現了許多圖像編輯應用，無需進行微調或反轉模型：修補、創製圖像、無遮罩編輯。
論文連結：https://arxiv.org/pdf/2301.00704.pdf

48. GLIGEN

論文名稱：GLIGEN: Open-Set Grounded Text-to-Image Generation
發布時間：2023/01/17
發布單位：威斯康辛大學麥迪遜分校、哥倫比亞大學、Microsoft
中文摘要：大規模的文本至圖像擴散模型取得了驚人的進展。但是目前的做法是僅使用文本輸入，這可能限制了可控性。我們提出了GLIGEN，即Grounded-Language-to-Image Generation（基於語言的圖像生成），這是一種新穎的方法，擴展了現有的預訓練文本至圖像擴散模型的功能，使其能夠依賴於基準輸入來進行條件訓練。為了保留預訓練模型的龐大概念知識，我們凍結了所有權重，並通過閘控機制將基準訊息注入新的可訓練層中。我們的模型實現了開放式基於基準輸入的文本轉圖像生成，包括標題和邊界框條件輸入，而且基準能力在新的空間配置和概念上表現出良好的泛化能力。GLIGEN在COCO和LVIS數據集上的零樣本表現大幅優於現有的受監督布局轉圖像基線。
論文連結：https://arxiv.org/pdf/2301.07093.pdf

49. Extracting Training Data

論文名稱：Extracting Training Data from Diffusion Models
發布時間：2023/01/30
發布單位：Google、DeepMind、蘇黎世聯邦理工、普林斯頓大學…
中文摘要：這些圖像擴散模型，像是DALL-E 2、Imagen和Stable Diffusion，因其能夠生成高品質合成圖像而引起了相當大的關注。我們的研究指出，擴散模型在生成時會記憶並提取其訓練數據中的單個圖像。透過產生和篩選的過程，我們從最先進的模型中提取了超過一千個訓練示例，涵蓋從個人照片到商標公司標誌等各種圖像。同時我們在各種設置下訓練了數百個擴散模型，分析了不同的建模和數據決策對隱私的影響。總結來說，我們的研究結果顯示，與先前的生成模型（如GANs）相比，擴散模型的隱私性要低得多，要解決這些漏洞可能需要在保護隱私的訓練方面取得新的進展。
論文連結：https://arxiv.org/pdf/2301.13188.pdf

50. Attend-and-Excite

論文名稱：Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models
發布時間：2023/01/31
發布單位：臺拉維夫大學
中文摘要：最近的文本到圖像生成模型展示了無與倫比的能力，能根據目標文本提示生成多樣且富有創意的圖像。雖然其革命性的效果，但目前最先進的擴散模型在生成能夠完全傳達給定文本提示語義的圖像方面仍然存在一定的困難。我們分析了公開可用的Stable Diffusion模型，並評估了災難性忽略的存在，即模型無法生成輸入提示中的一個或多個主題。此外我們發現在某些情況下，模型也無法正確地將屬性（例如顏色）與其相應的主題綁定。為了幫助緩解這些失敗案例，我們引入了“生成語義護理”（GSN）的概念，在推斷過程中干預生成過程，以提高生成圖像的保真度。我們使用基於注意力的GSN形式，稱為“注意與激勵”，引導模型精煉交叉注意力單元，將關注點放在文本提示中的所有主題標記上，並加強或激勵它們的激勵，鼓勵模型生成文本提示中描述的所有主題。我們將我們的方法與替代方法進行比較，並展示了它在各種文本提示下更保真地傳達了所需的概念。
論文連結：https://arxiv.org/pdf/2301.13826.pdf

51. Pix2Pix-Zero

論文名稱：Zero-shot Image-to-Image Translation
發布時間：2023/02/06
發布單位：卡內基麥隆大學、Adobe
中文摘要：大規模的文字到圖像生成模型展示了它們合成多樣且高品質圖像的卓越能力。但是直接應用這些模型來編輯真實圖像仍然具有挑戰性，原因有兩個。首先使用者難以提供完美的文字提示，準確描述輸入圖像中的每個視覺細節。其次現有模型雖然可以在某些區域引入理想的變化，但通常會在不需要變化的區域極大地改變輸入內容，並引入意外的改變。所以在這項工作中，我們提出了pix2pix-zero，一種無需手動提示就能保留原始圖像內容的圖像翻譯方法。首先我們自動發現了在文字嵌入空間中反映所需編輯的編輯方向。為了在編輯後保留整體內容結構，我們進一步提出了交叉注意力引導，目的在擴散過程中保持輸入圖像的交叉注意力映射。此外我們的方法不需要對這些編輯進行額外訓練，可以直接使用現有的預訓練文字到圖像擴散模型。我們進行了廣泛的實驗，結果顯示我們的方法在真實和合成圖像編輯方面優於現有和同時期的作品。
論文連結：https://arxiv.org/pdf/2302.03027.pdf

52. Custom Diffusion

論文名稱：Multi-Concept Customization of Text-to-Image Diffusion
發布時間：2023/02/10
發布單位：卡內基麥隆大學、北京清華大學、Adobe
中文摘要：我們提出了一個名為「自定義擴散」的方法，能夠有效地擴充現有的文本到圖像模型。這個方法只需調整文本到圖像條件機制中的少量參數，就能夠迅速表現新的概念（約6分鐘）。我們甚至可以一起訓練多個概念，或者透過閉合形式的受限優化將多個微調過的模型合併成一個。我們微調後的模型能夠生成多個新概念的變體，並且能夠在新的場景中無縫地結合現有概念。我們的方法在定性和定量評估中表現優於或與幾個基線模型和同時進行的研究工作相當，同時具有記憶和計算效率。
論文連結：https://arxiv.org/pdf/2212.04488.pdf

53. ControlNet

論文名稱：Adding Conditional Control to Text-to-Image Diffusion Models
發布時間：2023/02/10
發布單位：史丹佛大學
中文摘要：我們提出了ControlNet，一種神經網絡架構，用於在大型預訓練的文本到圖像擴散模型中添加空間條件控制。ControlNet鎖定可投入使用的大型擴散模型，並重複使用其以數十億圖像預訓練的深度和強大的編碼層，作為學習多樣條件控制的強大支撐。神經架構採用“零卷積”（零初始化的卷積層），逐漸增加參數以確保微調時不受有害雜訊的影響。我們使用Stable Diffusion測試了各種條件控制，例如邊緣、深度、分割、人體姿勢等，單個或多個條件，有或無提示。我們展示了ControlNet在小型（<50k）和大型（>1m）數據集上的穩健訓練。廣泛的結果顯示ControlNet可能促進了對圖像擴散模型的更廣泛應用。
論文連結：https://arxiv.org/pdf/2302.05543.pdf

54. Consistency Models

論文名稱：Consistency Models
發布時間：2023/03/02
發布單位：OpenAI
中文摘要：擴散模型在圖像、音訊和影片生成領域有顯著進展，但依賴迭代取樣過程，導致生成速度緩慢。為了克服這個限制，我們提出了一個新的模型家族 — 一致性模型，直接將雜訊映射到數據以生成高品質樣本。它們通過設計支持快速單步生成，同時仍允許多步取樣以在計算和樣本品質之間取得平衡。它們還支持零次數據編輯，例如圖像修補、著色和超解析度，無需對這些任務進行顯式訓練。一致性模型可以通過提煉預先訓練的擴散模型進行訓練，也可以作為獨立的生成模型進行訓練。通過大量實驗，我們展示了在單步和少步取樣中，它們優於現有的擴散模型提煉技術，實現了CIFAR-10的新FID狀態3.55，以及ImageNet 64x64的6.20。在獨立訓練時，一致性模型成為一個新的生成模型家族，可以在標準基準測試中超越現有的單步、非對抗性生成模型，例如CIFAR-10、ImageNet 64x64和LSUN 256x256。
論文連結：https://arxiv.org/pdf/2303.01469.pdf

55. ODISE

論文名稱：Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models
發布時間：2023/03/08
發布單位：加州大學聖地亞哥分校、Nvidia
中文摘要：我們提出了ODISE：開放詞彙的擴散式全景分割，結合了預訓練的文字-圖像擴散模型和辨識模型，實現了開放詞彙的全景分割。文字到圖像擴散模型具有生成高品質圖像並支持多樣化開放詞彙語言描述的顯著能力。這表明它們的內部表示空間與現實世界中的開放概念高度相關。另一方面，像CLIP這樣的文字-圖像辨識模型擅長將圖像分類為開放詞彙標籤。我們利用這兩種模型的凍結內部表示，對任何視野外類別進行全景分割。我們的方法在開放詞彙的全景分割和語義分割任務上明顯優於先前的最先進技術。特別是僅使用COCO訓練，我們的方法在ADE20K數據集上實現了23.4 PQ和30.0 mIoU，比先前最先進技術分別提高了8.3 PQ和7.9 mIoU。
論文連結：https://arxiv.org/pdf/2303.04803.pdf

56. BLIP-Diffusion

論文名稱：BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing
發布時間：2023/05/24
發布單位：Salesforce
中文摘要：主題驅動的文本到圖像生成模型根據文本提示創建輸入主題的新版本。現有模型存在長時間微調和保留主題完整性方面的困難。為了克服這些限制，我們引入了BLIP-Diffusion，這是一種新的主題驅動圖像生成模型，支持多模態控制，接受主題圖像和文本提示作為輸入。與其他主題驅動生成模型不同，BLIP-Diffusion引入了一個新的多模態編碼器，預先訓練以提供主題表示。我們首先按照BLIP-2對多模態編碼器進行預訓練，以生成與文本對齊的視覺表示。然後我們設計了一個主題表徵學習任務，使擴散模型能夠利用這種視覺表示並生成新的主題版本。與DreamBooth等先前方法相比，我們的模型實現了零樣本主題驅動生成，並且在自定義主題的有效微調中實現了多達20倍的加速。我們還展示了BLIP-Diffusion可以靈活地與現有技術（如ControlNet和prompt-to-prompt）結合，從而實現新的主題驅動生成和編輯應用。
論文連結：https://arxiv.org/pdf/2305.14720.pdf

57. SDXL

論文名稱：SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
發布時間：2023/07/04
發布單位：Stability AI
中文摘要：我們介紹了SDXL，一種用於文本到圖像合成的潛在擴散模型。相較於之前的Stable Diffusion版本，SDXL利用了三倍大的UNet骨幹結構：模型參數增加主要是因為使用了更多注意力塊和更大的跨注意力範圍，因為SDXL使用了第二個文本編碼器。我們設計了多種新的條件方案，並在多種寬高比上訓練了SDXL。我們還引入了一個改進模型，用於通過後置圖像到圖像的技術來提高SDXL生成的樣本的視覺保真度。我們證明了相較於之前的Stable Diffusion版本，SDXL的性能得到了顯著提升，並且與當前黑盒最先進的圖像生成器的結果相媲美。這一努力鼓勵開放研究，促進大型模型訓練和評估的透明度。
論文連結：https://arxiv.org/pdf/2307.01952.pdf

58. DALL-E 3

論文名稱：Improving Image Generation with Better Captions
發布時間：2023/10/03
發布單位：OpenAI
中文摘要：我們發現，透過訓練對生成圖像標題詳細描述的文字到圖像模型，可以大幅提升其根據提示生成圖像的能力。現有的文字到圖像模型在跟隨詳細的圖像描述方面存在困難，有時會忽略文字，或混淆提示的含意。我們假設這問題源自訓練數據集中具有雜訊和不準確的圖像標題。為了解決這個問題，我們訓練了一個專門的圖像標題生成模型，並用它重新生成了訓練數據集的標題。接著我們訓練了多個文字到圖像模型，發現使用這些合成的標題訓練能可靠地提升模型的提示跟隨能力。最後我們利用這些發現打造了 DALL-E 3：一個新的文字到圖像生成系統，並在評估中測試了其提示跟隨、連貫性和美觀性，結果顯示其表現優於競爭對手。我們公開了評估的樣本和程式碼，以便未來研究能持續優化文字到圖像系統中這一重要方面。
論文連結：https://cdn.openai.com/papers/dall-e-3.pdf

59. Latent Consistency Models (LCM)

論文名稱：Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference
發布時間：2023/10/06
發布單位：北京清華大學
中文摘要：透過潛在擴散模型（LDMs），在合成高解析度圖像方面已經取得了顯著的成果。但是迭代取樣過程需要大量計算並導致生成速度緩慢。受到一致性模型的啟發，我們提出了潛在一致性模型（LCMs），可在任何預訓練的LDMs上進行迅速推論，並以最少步驟生成圖像，包括穩定擴散。將引導的逆擴散過程視為解決增強機率流ODE（PF-ODE），LCMs旨在直接預測潛在空間中該ODE的解，減少了大量迭代的需求，實現了快速且高保真度的取樣。從預訓練的無分類器引導擴散模型中高效提煉而來的高品質768 x 768 2~4步LCM僅需32個A100 GPU小時進行訓練。此外我們還介紹了潛在一致性微調（LCF），這是一種針對自定義圖像數據集進行LCMs微調的新方法。在LAION-5B-Aesthetics數據集上的評估顯示，LCMs在少量步驟的推論下實現了最先進的文本到圖像生成性能。
論文連結：https://arxiv.org/pdf/2310.04378.pdf

60. Improved Consistency Model

論文名稱：Improved Techniques for Training Consistency Models
發布時間：2023/10/22
發布單位：OpenAI
中文摘要：一致性模型可以在一步操作中直接產生高品質的數據，無需進行對抗訓練。現有的一致性模型通過提煉來自預先訓練的擴散模型並使用學習到的度量標準（如LPIPS）來實現最佳樣本品質。但是提煉會限制一致性模型的品質，而LPIPS會在評估中引入不必要的偏差。為了應對這些挑戰，我們提出了改進的一致性訓練技術，使一致性模型能夠直接從數據中學習而無需提煉。我們深入研究了一致性訓練的理論，發現了一個先前被忽視的缺陷，並通過消除指導一致性模型中的指數移動平均值來解決。為了替代像LPIPS這樣的學習度量標準，我們採用了來自強健統計學的偽胡貝爾損失。此外我們引入了一個對於一致性訓練目標的對數正態雜訊計劃，並建議每隔一定數量的訓練迭代加倍總離散化步驟。這些修改與更好的超參數調整結合起來，使得一致性模型能夠在單一取樣步驟中在CIFAR-10和ImageNet 64×64上分別實現FID得分為2.51和3.25。與先前的一致性訓練方法相比，這些得分提高了3.5倍和4倍。通過兩步取樣，我們進一步將這些數據集的FID分數降至2.24和2.77，超越了提煉方法在單一和雙步設置中的得分，同時縮小了一致性模型與其他最先進生成模型之間的差距。
論文連結：https://arxiv.org/pdf/2310.14189.pdf

61. LCM-LoRA

論文名稱：LCM-LoRA: A Universal Stable-Diffusion Acceleration Module
發布時間：2023/11/09
發布單位：北京清華大學、Hugging Face
中文摘要：潛在一致性模型（LCMs）在加速文本到圖像生成任務中表現出色，僅需最少的推論步驟即可生成高品質圖像。LCMs是由預先訓練的潛在擴散模型（LDMs）提煉而來，只需要約32個A100 GPU訓練小時。這份報告進一步擴展了LCMs的潛力：首先通過將LoRA提煉應用於穩定擴散模型，包括SD-V1.5、SSD-1B和SDXL，我們擴大了LCM對更大模型的覆蓋範圍，並極大減少了記憶體消耗，實現了更優秀的圖像生成品質。其次我們識別了通過LCM提煉獲得的LoRA參數，作為一個名為LCM-LoRA的通用穩定擴散加速模塊。LCM-LoRA可以直接嵌入到各種穩定擴散微調模型或LoRAs中，而無需進行訓練，因此代表了一種可普適應各種圖像生成任務的加速器。與以往的數值PF-ODE求解器（如DDIM、DPM-Solver）相比，LCM-LoRA可以被視為一個插入式神經PF-ODE求解器，具有強大的泛化能力。
論文連結：https://arxiv.org/pdf/2311.05556.pdf

62. Diffusion-DPO

論文名稱：Diffusion Model Alignment Using Direct Preference Optimization
發布時間：2023/11/21
發布單位：Salesforce、史丹佛大學
中文摘要：我們提出了 Diffusion-DPO，這是一種將擴散模型與人類偏好相結合的方法。傳統上大型語言模型使用強化學習從人類比較數據中進行微調，以使它們更符合用戶的喜好。相比於語言模型，文本到圖像擴散模型中，對於人類喜好的學習研究尚未得到廣泛探索；目前最好的方法是使用精心挑選的高品質圖像和標題對預訓練模型進行微調，以提高視覺吸引力和文本對齊性。Diffusion-DPO直接優化於人類比較數據，透過最近開發的直接偏好優化（DPO）方法進行調整。我們重新構建了 DPO，以考慮擴散模型的可能性，利用證據下界來推導可微分的目標。使用 Pick-a-Pic 數據集進行微調，我們對當前最先進的 Stable Diffusion XL (SDXL)-1.0 模型的基本模型進行了 Diffusion-DPO 的微調。我們微調後的基本模型在人類評估中明顯優於基本的 SDXL-1.0 模型以及包含額外改進模型的較大的 SDXL-1.0 模型，在視覺吸引力和提示對齊方面有所提升。我們還開發了一種使用人工智慧反饋的變體，其性能與基於人類偏好訓練的相當，為擴散模型調整方法的擴展提供了可能。
論文連結：https://arxiv.org/pdf/2311.12908.pdf

63. Adversarial Diffusion Distillation (ADD)

論文名稱：Adversarial Diffusion Distillation
發布時間：2023/11/28
發布單位：Stability AI
中文摘要：我們介紹了一種新的訓練方法，名為對抗擴散蒸餾（ADD），它能在僅1–4步驟內高效抽樣大規模基礎圖像擴散模型，同時保持高品質的圖像。我們使用分數蒸餾來利用大規模現成的圖像擴散模型作為教師訊號，結合對抗損失來確保即使在一兩個抽樣步驟的低階段，圖像也具有高保真度。我們的分析顯示，我們的模型在單步驟上明顯優於現有的少步驟方法（GANs、潛在一致性模型），並在僅四個步驟內達到了最先進的擴散模型（SDXL）的性能水準。ADD是首個能實現基礎模型的單步驟即時圖像合成的方法。
論文連結：https://arxiv.org/pdf/2311.17042.pdf

64. DeepCache

論文名稱：DeepCache: Accelerating Diffusion Models for Free
發布時間：2023/12/01
發布單位：新加坡國立大學
中文摘要：這篇論文介紹了一種名為 DeepCache 的新方法，用於加速擴散模型，這些模型在圖像合成方面具有卓越的能力，但常常需要大量的計算成本。DeepCache利用擴散模型中順序去雜訊的時間多餘性，跨相鄰去雜訊階段緩存和檢索特徵，從而減少重複計算。通過重用高層特徵並以經濟的方式更新低層特徵，它實現了擴散模型的加速。在實驗中Stable Diffusion v1.5加速了2.3倍，CLIP Score下降了0.05，而LDM-4-G加速了4.1倍，ImageNet上FID僅輕微下降了0.22。與需重新訓練的現有修剪和蒸餾方法相比，DeepCache表現優異，且與目前的取樣技術相容。同時，DeepCache在相同的吞吐量下，能夠有效地達到與其他擴散模型相當甚至略有改善的結果。
論文連結：https://arxiv.org/pdf/2312.00858.pdf

65. RCG

論文名稱：Self-conditioned Image Generation via Generating Representations
發布時間：2023/12/06
發布單位：麻省理工學院、Facebook(Meta)
中文摘要：這篇論文介紹了「表徵條件影像生成」（RCG），這是一個簡單卻有效的影像生成框架，為類別無關的影像生成設立了新的標竿。RCG不會根據任何人類註釋來進行條件設定。它使用預先訓練的編碼器將自我監督的表示分佈映射到影像分佈上，並在生成過程中使用表徵擴散模型（RDM）從這樣的表徵分佈中進行抽樣，然後使用像素生成器來生成條件於抽樣表徵的影像像素。這種設計在生成過程中提供了實質性的指導，能夠生成高品質的影像。在 ImageNet 256×256 測試中，RCG實現了3.31的Frechet Inception Distance（FID）和253.4的Inception Score（IS）。這些結果不僅顯著改進了類別無關的影像生成的最新技術水平，而且在類別有條件的影像生成中與目前領先的方法相媲美，彌合了這兩個任務之間長期存在的性能差距。
論文連結：https://arxiv.org/pdf/2312.03701.pdf

66. ControlNet-XS

論文名稱：ControlNet-XS: Designing an Efficient and Effective Architecture for Controlling Text-to-Image Diffusion Models
發布時間：2023/12/11
發布單位：麻省理工學院、Facebook(Meta)
中文摘要：這篇論文探討了圖像合成領域近年來的重要進展。除了使用文本提示來定義所需的輸出圖像外，另一種直觀的方法是額外利用圖像形式的空間引導，例如深度圖。近期一個受歡迎的方法是使用控制網絡（如ControlNet），結合預訓練的圖像生成模型（如Stable Diffusion）。當評估現有控制網絡的設計時，我們發現它們都存在一個問題，即在生成和控制過程之間存在訊息流的延遲。這代表控制網絡必須具有生成能力。所以在這份工作中，我們提出了一種新的控制架構，稱為ControlNet-XS，它不受這個問題的困擾，因此可以專注於學習控制的任務。與ControlNet相比，我們的模型只需少量參數，因此在推斷和訓練時大約快兩倍。此外生成的圖像可以有更高品質，控制更精準。
論文連結：https://arxiv.org/pdf/2312.06573.pdf

小結語

其實我們在最近Midjounery v6更新就可以發現，AI產生的圖像已經非常非常逼真了，幾乎完全看不出破綻，另外在DALL-E v3的發布，我們也可以看到，現在AI已經能非常精準的根據你的文字產生相對應的圖片，而且原本推論的速度很慢需要好幾個step，現在很多都改進到1、2個step就可以生成非常好的圖片了。所以我們可以看出diffusion model真的可以說是爆炸式的進展。

對於目前存活下來的公司和研究團隊也開始紛紛投入到了video generation的賽道，不過我自己這一次看了一下NeurIPS 2023的論文、Pika這間新創，以及stable video diffusion，個人覺得應該2024上半年就可以真的商業化了。

另外一個就是3D點雲生成，有在跟論文的應該都知道這是我們Nvidia黃老大的重點研究項目，我個人猜主要原因是Nvidia本身也投很多錢在遊戲產業上，而這個3D點雲生成剛好就可以運用在很多遊戲引擎上。

所以對於2024，我們可以來期待一下各個科技巨頭和新創公司在diffusion model上的發展！

作者：劉智皓

Diffusion Models

Image Generation

劉智皓 (Chih-Hao Liu)

Written by 劉智皓 (Chih-Hao Liu)

豬屎屋AI Engineer，熱愛AI研究、LLM/SD模型、RAG應用、CUDA/HIP加速運算、訓練推論加速，同時也是5G技術愛好者，研讀過3GPP/ETSI/O-RAN Spec和O-RAN/ONAP/OAI開源軟體。

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams