為了能讓以變換器為文字編碼器的文字生成圖片模型正確生成出對應內容圖片,本研究提出一個以判別器架構分析圖片中是否包含特定提示詞內容之系統,藉由分析圖片庫中大量圖片並將其結果進行統計歸納,提供給模型訓練者其模型是否在特定輸入文字上的表現有缺點之資訊。 本研究以Stable Diffusion此模型為實驗對象,並收集社群上模型訓練者預訓練好的權重用於生成實驗用圖片,通過實驗分析推論出該權重之文字編碼器能否對輸入文字萃取出能產生預期效果圖片的特徵; 尤其變換器架構對於文字間的關係及微小差異特別敏感,對於文字生成圖片產生的非預期結果缺乏能絕對溯源的方法,因此期望能以判別器產出的分析結果之交叉比對推導哪些提示詞的組合將導致部分提示詞被編碼器錯誤理解。
文生圖模型經常遇到生成圖片忽略輸入提示的情況,此情況的發生具有偶然性,並且在輸入提示較多時更常發生。
模型使用者往往需要多次嘗試才可產生無提示缺失的圖片,僅圖片內容與提示相符與理想狀況可能還有巨大差異。
而模型開發者也難以在眾多提示中找出容易導致內容錯誤的組合。
本研究提出一個以判別器對生成圖片分析以歸納出該模型缺陷,主要是以分析哪些提示組合下有更高比率被擴散模型忽略部分提示。
本研究以Stable Diffusion為實驗對象,由該擴散模型生成的圖片將被儲存至圖片庫。
Discriminator的訓練以及分析用的樣本皆是取自於該圖片庫,此方法能省去手動標記圖片及資料收集的繁瑣步驟。
判別器原為鑑定圖片是否為人工生成對抗網路生成之圖片,本研究將其作為識別圖片中是否包含特定提示之內容的回歸模型。
藉由判別器對輸入圖片給出是否包含特定提示之信心分數,可再額外計算其正確率、假陽性及假陰性等比率。
將上述的分析數據以輸入圖片之提示進行分組,將各組個別進行統計可得出在不同提示組合下生成之圖片與提示的匹配。
Stable Diffusion的權重"Checkpoint",不論是使用者於網路社群上下載,或訓練者自行訓練。
本研究主旨在幫助人們檢驗挑選之Checkpoint之生成圖片,因此能讓使用者直覺地檢視分析結果至關重要。
本研究的系統中提供多種視覺化圖表以供檢視,這是為了讓關鍵數據一目了然。
在將數據以圖表顯示前將其正規化以讓圖表的對比更大,以顏色凸顯數據的數值等方法皆系統中使用。