使用圖像生成AI時,您會經常接觸到「CLIP」這個術語。許多人可能將其簡單地理解為「將文本轉換為圖像的解釋器」,但CLIP的角色卻更深且更精細。特別是隨著使用兩個以上編碼器的「雙重CLIP」方法的出現,撰寫提示的策略也在不斷演進。

在本文中,我們將從CLIP的基本概念探討如何在雙重編碼器系統中優化提示。


1. CLIP是什麼?



CLIP (Contrastive Language-Image Pre-training) 是OpenAI開發的模型,顧名思義是「對比(Contrastive)」語言(文本)和「圖像」一起學習的多模態(Multi-modal)模型。

其核心功能是將圖像和文本放置於同一個「潛在空間(Latent Space)」的虛擬向量空間中。

  • 如果「狗」這個文本位於某個空間坐標(向量)中,

  • 那麼「狗」的照片也會被學習成位於非常接近的坐標。

在圖像生成模型中的角色:

重要的是,CLIP本身並不是繪製圖像的生成器(Generator)。而是在生成模型(例如:Stable Diffusion)生成圖像的過程中,擔任「當前生成的圖像與用戶的文本提示有多一致?」的評估者或導航者。CLIP得分越高(文本與圖像越接近),生成模型便會判斷「這個方向是正確的」,並逐漸添加細節。


2. 雙重編碼器的出現:為何使用兩個模型?

最近,像Stable Diffusion XL(SDXL)這樣的高性能模型採用了「雙重文本編碼器」的方式,而不是單一的CLIP。代表性的組合為clip_lt5xxl_fp16

這是因為「角色分工和專業化」

  1. clip_l (視覺/關鍵字匹配專家):

    • 傳統CLIP的文本編碼器。

    • 強大的關聯圖像和文本之間的視覺概念。

    • 主要用於提取關鍵詞、風格、構圖等視覺要素。

  2. t5xxl_fp16 (語言/上下文專家):

    • T5是Google開發的大型語言模型(LLM),比CLIP的基本文本編碼器大得多。

    • 能夠理解的不只是單一關鍵字,還包括複雜的句子結構、上下文和單詞之間的微妙關係

    • 作為「語言專家」,能夠捕捉提示的細微差異。

將這兩個編碼器結合使用即可準確反映復雜且冗長句子的意義(T5)以及核心視覺樣式(CLIP-L),從而生成更豐富且精確的圖像。


3. 最佳提示寫作技巧:句子與關鍵字的組合



要充分發揮這個雙重編碼器系統的性能,建議提供符合各編碼器特性的提示。許多高級圖像生成工具(例如:ComfyUI)允許對這兩個編碼器輸入不同的文本。

  • T5-XXL (語言專家)應該使用 → 自然的「句子」

    • 建議用完整句子形式陳述,讓模型能夠理解上下文。

    • 例如:「一位20多歲的日本年輕女性,留著黑色馬尾,戴著黑框眼鏡。她坐在白色地毯上,聆聽音樂,凝視著鏡頭。」

  • CLIP-L (視覺匹配專家)應該使用 → 「關鍵詞」

    • 列舉與風格、物體、顏色、構圖等視覺上重要的核心要素會更有效。

    • 例如:「日本女性,20歲,黑色馬尾,黑色眼鏡,白色耳機,聽音樂,坐著,凝視,上方,整體,專業真實照片。」


4. JSON或字典形式的提示會怎樣?

為了系統化管理提示,有時會將其編寫為JSON或字典(Python Dictionary)形式。

{
"Character":"20多歲的日本年輕女性.",
"Appearance":{
"hair": "黑色馬尾髮",
"wearing": "黑框眼鏡,白色無線耳機"
},
"Action": "聆聽音樂,坐在白色地毯上",
"style" : "專業真實照片"
}

直接將此結構複製並相同地輸入T5和CLIP-L編碼器是非常低效且不理想的。

為什麼效果不佳?

  1. 模型的學習方式不一致:像T5或CLIP這樣的模型學習了自然的句子(文本)。像{}"這樣的編程符號在模型中可能被視為「雜訊」而非「語言」。

  2. 上下文中斷:"Character": "...""Action": "..."之間的有機上下文連接被斷開。模型將「角色」和「行動」視為獨立的信息片段,組合成自然的場景會面臨困難。

正確的轉換範例

要在雙重編碼器系統中正確利用上述JSON數據,需要進行「翻譯」的過程。

  • T5-XXL (句子型輸入):

    一位20多歲的日本年輕女性,留著黑色馬尾,戴著黑框眼鏡和白色無線耳機。她坐在白色地毯上聆聽音樂。這是一張專業真實的照片。

  • CLIP-L (關鍵詞型輸入):

    日本年輕女性,20多歲,黑色馬尾,黑框眼鏡,白色無線耳機,聆聽音樂,坐在白色地毯上,專業真實照片

image_from_right_prompt


5. 總結與結論

  1. CLIP並不是繪製圖像的生成器,而是用來評估文本和圖像的匹配程度的「評審」。

  2. 雙重編碼器(T5 + CLIP-L) 是「語言專家(T5)」和「視覺匹配專家(CLIP-L)」合作的強大方式。

  3. 為了獲得最佳結果,向T5提供自然句子,而向CLIP-L提供關鍵字是最佳選擇。

  4. 直接在提示中使用像JSON或字典這樣的結構化數據會阻礙模型的理解,因此應轉換為自然語言句子和關鍵字使用。