AI 画像生成

【Stable Diffusion】CLIP model毎の違いとステップ&スケール

CLIP modelを変更するとseed等の数値が全て同じでも別の画像
というか画風が結構変わることがわかりました

なので今回はCLIP model毎の違いをまとめてみました

ついでにステップとスケールの最小から最大までの違いも試してみました
正直最小は使う必要は無いです

条件

まずは今回使う画像の条件から

masterpiece, best quality, masterpiece,Face close-up,a girl ,beautiful face,moist eyes,black short hair,Tears,middy uniform,Embarrassed
Negative Prompt/lowres, bad anatomy, bad hands, text error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name,fat
  • Sampling Steps:28
  • Sampling method:Euler
  • CFG Scale:12

CLIP model毎の違い

1~9までは結構好みなのかなって感じですけど
10~12は何だか全然違う画像になりましたね

text的には1~5までは割と正確なんですけど
それ以降はちょっと無視されています

なので基本的に1~5までを使って画像を生成するのが良いかもしれません

個人的には3と4が好きですね

ちなみに良く見かける画像のテイストに近いのは2が1番多いと思います

Sampling Steps

次はSampling Stepsの違いを比べてみます

  • 最小:1
  • デフォルト:20
  • 最大:150

僕がよく使うのが30前後ですね

大体20~110くらいが良いと言われています

今回は上3つを比べてみました

ちなみにCLIP modelは3です

1は流石に論外ですけど20と150でそこまでの違いが無いかなって気がします

確かによく見ると150の方が解像度が高いと言うかキレイなんですけど
かかる時間を考えるとちょっと微妙かなって感じです

まあでも20はちょっとかすれ過ぎですかね

高ければ良い画像が必ず出来る訳でもありませんからこの辺のチョイスは難しいですね

CFG Scale

次はCFG Scaleの違いです

  • 最小:1
  • デフォルト:7
  • 最大:30

Sampling Stepsは28
CLIP modelは3です

こちらは7~12程度が良いらしいです

やはり1はダメみたいですね

7と30だと確かに30の方が色々と書き込みが多い感じがします

ただ個人的には結構7ぐらいのほうが好きだったりします

まあこの辺も好みですかね

ただ無理に最大値の30で作る必要は無いかなって思いました

おまけ

今回使った画像でseedを固定すると結構遊べます

例えばOpen mouthを追加してみると

こんな感じになります

元の画像と比べるてそこまで変化が無い画像が出力出来ます

ただもっと視点を下げようとすると

ちょっと違う人物になってしまいますね

この辺りが課題かなって感じです

ポーズや表情を変えなければ衣装差分のような画像は作れます

あとがき

同じseed値を使ってもクリップやスケール等を変えると全然違った画像になるので
色々試してみると面白いと思います

ただ全く同じ人物をポーズや視点を変えて出力するのはseed値を固定していても難しいです

たまに似たような人物の画像が出来ることもありますけどね

現状は服装を変更するくらいですね

こんかいはここまでです

以上

-AI, 画像生成