【Stable Diffusion webUI】BlenderとControlNetを使って画像を作る

今回はBlenderでモデリングした画像を「depth」と「openpose」で画像生成して
組み合わせるみたいなことをやってみました

例えばモデルを椅子に座らせた状態でモデリングしてそれぞれの画像を出力すると言った感じです
最終的にはそれぞれ作った画像を雑コラみたいにしてみましたが、まあ正直イマイチでしたね

ちなみ今回使用したソフトは

Blender
Stable Diffusion web UI
GIMP

全てフリーで使用出来ます
「Blender」と「GIMP」はフリーだけど性能は良いのでSD関係無くオススメなソフトです

ControlNetの使い方やBlenderでモデルを作る方法は別で記事があるのでそちらを参考にしてください

Stable Diffusion web UI　新拡張機能「ControlNet」

ControlNetで使うカラフル棒人間を簡単に作れる Blenderアドオン導入＆使用方法紹介

ControlNetの各モデル比較【使いやすいのは結局openpose】

追記：「ControlNet」のアップデートにより「depth」や「openpose」等を複数設定出来るようになりました
なので雑コラは必要無いです

変更は設定から
画像のような項目が無い場合は「ControlNet」のアップデートが必要です

Blenderで下準備

まずはBlenderで元になる画像を作成します

背景作成

アセットを使ったて良いんですけど

今回は画像のように立方体の追加（赤丸）で簡単に作ってみました
一応ベッドと机のつもりです

色分けはおかしなことになっていますけど、どうせ白黒になるので気にしないでいきます

実際はかなりハリボテになっています

どうせカメラの調整で何とでもなるので適当です

あとはdepth画像にして完成です

濃淡はどの程度が良いのかまだ良くわかっていません

人物モデルの作成

次は人物モデルの作成です
といっても人物モデルのファイルから背景を作っているので順番が少し違うんですけど
背景に合わせてポーズを作ったので次工程にもってきました

で作ったのがこんな感じの画像です

イメージはベッドに腰掛けている様子なんですけど、サイズ感がちょっとおかしいかも？

あとはカラフル棒人間にするだけです

これで準備は完了です

画像生成

depth

まずはdepthから

ベッドとテーブルのつもりだったんですけど、テーブルとテーブルですねこれは

同じmodelを使ってるけど、どうもdepthだと画風というか雰囲気が違って出力されますね

openpose

まあ正直微妙な出来ですね

もう少し斜めからの予定だったんですけど、完全に横向きになってしまいました
遠目からだとやっぱり良い画像にはならないですね

雑コラ

後は２つの画像をGIMPでコラージュしてみます

誠にごめんなさいとしか言いようが無いです

切り抜きは今後精進するとして、やっぱり元の雰囲気が違い過ぎて上手く合わさりませんでした

img2imgなら上手いこと出来るかなとも思いましたが

ダメみたいですね

発想は悪く無かったと思うんですけどね
もっと別の方法を考えた方がよさそうです

openpose距離感比較

そもそもの棒人間が小さすぎるのかと思いアップさせてみました

角度的には悪く無いけど、胴体と左腕が重なっているところが上手く認識されていないようです

ちょっと違う画像になりますけど、正面です

この画像は腕を後ろについているポーズから作った画像になっています

なので体の後ろに腕があるハズなんですけど手前になってしまっていますね

重なっているところはもう少し工夫しないとダメみたいです

おまけ：Sit on the edge of the bed

(((masterpiece))), (((best quality))),bed room,solo,1 girl,(green tracksuit),Sit on the edge of the bed,short hair,bob cut,black hair,yellow eyes,gray scale,((shaded area)),(tiny breasts),extremely_detailed_eyes_and_face<hypernet:furry:1.0>
Negative prompt: lowres, bad hands, text,error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts,signature, watermark, username, blurry, artist name,fat,red face,nude,large breasts
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 10,Face restoration: GFPGAN, Size: 704x512, Denoising strength: 0.6, Clip skip: 2, Hires upscale: 1.6, Hires upscaler: Latent

元々作りたかったのはこんな画像です
普通にtxt2imgで作ったほうがクオリティは高いようですね

まあベッドサイドに座っている画像はほとんど生成されませんでしたけど

割座もこんな感じ

何というか欲しいのはこの人物と背景だと思いますけど
じゃあControlNetで別々に作れるのか？っていうと少し難しいのかなというのが現状ですかね？
もしかしたら別に良い方法があるのかもしれませんけど

今のところ複数人を同時に出力したい時に使うのが１番良い使い方なのかなーって思っています