Windows11にStable Diffusionをインストールして、二次元的な絵を作ってみる

無料公開されたStable Diffusion、至る所で話題になってますね。
私も早速Windows11環境に導入してみました。
NVIDIAのビデオカードを使っているPCがあれば、ローカル環境で動かすことが可能です。
※ビデオカードが無くても大丈夫な方法もありますが、割愛。

導入方法ですが、仮想環境を使う、anacondaをインストールして使うなどいろいろな方法がありますが、一番簡単な方法は下のリンクにある方法でした。
ZIPアーカイブをDLして解凍、あとは若干の作業で動かすことができます。
gitでの操作が必要ですが、git for Windowsをインストールして、git clone URL…でソースコード一式をDL可能ですので、複雑ではありません。

img2imgとその他全部盛りのツールをローカルで動かそう[StableDiffusion]

私のPCは以下の環境となります。

  • Core i7-12700KF
  • GeForce GTX1080(VRAM 8GB)
  • Windows11

エラーが出るときは

Promptの一部をフォルダ名にしているため、Windowsのパスの文字制限に引っかかってしまうことがあるようです。
その場合は、以下の方法で文字制限を解除できますので、お試しください。

【Windows】パスの260文字制限の解除方法

テキスト(Prompt)で絵を描いてみる

Stable Diffusionですが、絵を描くのに2つの方法があります。

txt2img:Promptと呼ばれるテキストを元に絵を生成する
img2img:元になる絵にPromptのテキストを適用し絵を生成する

サンプルを元に、見ていきたいと思います。

まずは、Promptと呼ばれるテキストで絵を描いてみましょう。
Promptは慣れが必要ですが、以下のサイトを見つつ、気に入った絵を出力するPromptを元に、テキストを入れ替えてみるのがいいと思います。

Lexica

とりあえず、生成した結果を見ていきましょう。
使用したPromptは以下となります。

A princess with silver hair and black gothic lolita dress, fairy tale style background, a beautiful half body illustration, top lighting, perfect shadow, soft painting, reduce saturation, leaning towards watercolor, art by hidari and krenz cushart and wenjun lin and akihiko yoshida,highly detailed, elaborate, digital painting hyper quality

上記で、どのような絵が生成されるかというと…

すげえですな…。
ちなみに、Promptでどんな指定をしているかというと、

A princess →女性キャラクタ。girlでもいいけど、princessの方が好印象な場合が多いっぽい
with silver hair →髪の毛の色指定
and black gothic lolita dress, →服装指定
fairy tale style background, →背景指定。妖精っぽい感じ。なので、たまに羽根が付いている絵が。
a beautiful half body illustration, →上半身を中心としたイラスト
top lighting, →照明指定
perfect shadow, →影生成指定
soft painting, reduce saturation, →画質指定
leaning towards watercolor, →色味指定
art by hidari and krenz cushart and wenjun lin and akihiko yoshida, →絵師などを指定すると絵柄が寄る
highly detailed, elaborate, digital painting hyper quality →画質指定

といった感じです。

Promptの指定については、以下のサイトが参考になります。

AI画像生成ツール「Stable Diffusion」のコツまとめ(text2image)
Deepl(英語翻訳用)

ちなみに、Stable Diffusionは正方形で学習しているようで、作成する寸法も正方形が一番精度が高いようです。

画像を元に絵を描いてみる

指示用のラフ絵を元にイラストを生成している記事は多数ありますので、ちょっと方向を変えて、自作のイラストを別のテイストにできるか実験してみました。
指示用のラフから好みの絵を作成する方法は、下のサイトがわかりやすいです。

Stable Diffusionのimg2imgで好みの絵を作成するまでの過程

ラフの線画を加工してみる

20年以上前に描いたイラストがあるので、引っ張り出してみることに。
テストで使ったのは、以下の画像になります。

さて、こいつを元に適当にPromptを設定して生成してみると…

おおお…手書きのタッチまで再現されてますよ!すげえ!
しかも、オリジナルより可愛くなってきる気もする…!!
服の一部が髪の毛になったり、腕が怪しいことになっていたりしますが、それにしても凄いですね。

着色したラフ画を加工してみる

お次は、ラフに着色したこいつを。

コツは、Classifier Free Guidance Scale (how strongly the image should follow the prompt)を強く設定するとペン入れしたような絵柄になり、低く設定するとラフスケッチの線画がそのまま生きた状態になります。
さて、この絵にもPromptを設定して生成してみると…

なんと…一部怪しくなってるパーツもありますが、レースやヘッドドレスの細かさが半端ない!
ちなみに、カチューシャではなく花のヘッドドレスになっているのは、Promptにflower bloomingを指定している影響と思われます。
適当に手を抜いて描いたフリルがすごい細かくなってるし、ストッキングの質感がまた素晴らしい…。
いやあ、楽しい。

20年以上前のイラストでも、AI処理すれば今時っぽくなるものですなぁ…。

ポーズ人形をイラストに変換してみる

お次の実験は、こちら。

イラストを描く際の強い味方、ポーズ人形。
これをimg2imgで、一気にイラストにしてみたいと思います。

これは…!
ポーズ人形を用意しておき、好きなポーズにして写真を撮って、Stable Diffusionで処理するだけで、いろんなイラストが出力されてしまうとは…恐るべし。
しかも、衣装もいろんなバリエーションがあって面白いですね。
このあたりはPromptを設定するといろいろいじれそうです。
しかし…一番左側のイラストとか、AIが一発生成したとは思えないレベルです。
腕のポーズが異なっているのは、Denoising Strengthを強めに設定したことで、元のポーズ人形と比べて自由度があるためです。
Denoising Strengthを弱め(0.4とか)に設定すると、同一ポーズの画像のみが生成されます。

なお、生成した際のPromptですが、最初に説明しているサイトで紹介されているものを使うと、画像と同じフォルダにyamlファイルが生成され、その中にテキストとして記録されていますので、後から同じ設定で画像を生成する際に便利です。

それにしても、Stable Diffusion、恐るべし…!


Prompt指定個人的メモ

メモっておかないと忘れるので…。

アニメ風にするか、3D風にするかは服装によっても異なってくる

たとえば、服装の指定のみ変更したPromptで生成した以下2枚ですが、かなり雰囲気が異なります。

かなり極端な画像を抽出していますが、左は「white silk Ruffled apron, white silk Ruffled Skirts,
black Maid Clothes, black Ruffled Headdresses, Knee-Length Long black Skirts」、右は「silver hair and black gothic lolita dress」を指定して生成したもの。
おそらくですが、Maid Clothesを入れると、いわゆる“メイドさん”のイラストが多く、よりアニメ絵に引っ張られるような気がします。
あとは、服装を指定する語が多すぎて、後ろのほう(60語を超えたあたり?)は無視された結果かもしれませんが…。

出力サイズを大きくするならRealESRGANを使おう

VRAM8GBの環境では、576×576px程度の出力が限界です。
画像を引き伸ばすのであれば、Upscale images using RealESRGANにチェックを入れると、大きめの解像度の画像が出力されます。
その際、Save individual imagesにチェックが入っているとオリジナルサイズも出力されてしまうので、こちらのチェックは外しておきましょう。
※RealESRGANは別途インストールが必要です。

Stable Diffusionを使うには、最低VRAM8GBは欲しい

Stable Diffusionを使うには、NVIDIAのビデオカードがほぼ必須なのは、最初に説明したとおりです。
これは、AIの処理にNVIDIAのビデオカードの機能を使っているためで、ATIのビデオカードでは残念ながら動作不可となります。
私はGeForce GTX1080でStable Diffusionを使っていますが、8GBのビデオメモリだと512×512pxの画像を出力するのでほぼギリギリです。

出力処理中のGPUリソースですが、ビデオメモリがほぼ100%使っているのがわかります。
VRAM容量をオーバーするとエラーを出して止まってしまいます。
Stable Diffusionを使い倒すのであれば、できれば12GBのビデオメモリを搭載したビデオカードが欲しいところです。



いろいろなテイストの絵を描かせてみる

今まで生成したイラストのうち、気に入っているものをご紹介。
主に、LexicaやTwitterなどで公開されている呪文を軸に、ワードの入れ替え、追加を行って生成しています。

どれも同一Prompt。2枚目は、顎が角張っていたので修正しています。
両方とも同じPromptから。有名なアーティストの方のTwitter IDが指定されているので、変更することで絵柄を変えられそうです。
顔を整える部分は応用が利きそう。

同じPromptで、横長にしてみたのがこちら。

絵柄の安定っぷりが恐ろしい…
アーティスト指定は絵柄が安定する反面、そのまんまの部分があるので、AIに描かせるという点では卑怯かもしれません。

1枚目は、顔と腕に加筆してますが、かなり気に入っている1枚です。
生成Promptとseedは保存してあるので、解像度あげて生成してみますか。
ちなみに、縦横比を変えると、全く別物の画像になってしまうので要注意です。

もう少し、アニメ塗りっぽくしてみたのがこちら。
フリルがなんともたまりません。

 

軽量ゲーミングマウスはビジネスでも使えるか? Logicool MX Masterから、Steelseries AEROX 5 Wirelessマウスに乗り換えてみた

今まで、LogicoolのMX Master(初代)をメインのマウスとして使っていました。
だいぶ長い間使ってきて痛みも出てきたので、
・外装(シェル)交換
・ホイール交換
・バッテリー交換
・ソール交換
というオーバーホールを行い、ほぼ新品同様の外観とバッテリー持続時間を取り戻しました。
まだまだ使えるマウスなのですが、最近仕事で使っていると「マウスが重たいなぁ」と感じることが多くなりました。

ソールを新品に張り替え、マウスパッドはARTISANのNINJA FX シデンカイなのでこれ以上無いくらい滑るのですが、マウス自体が重たいため、静止状態から動かす際、手首にそこそこ加重がかかり、ちょっとしんどかったりします。

バッテリーを抜いて軽量化・有線化したG700sも繋げているのですが、こちらのほうが50g程度軽いので遙かに使い勝手は良い感じ。
ただ、ケーブルが気になるのと、できるならもっと軽いマウスを!ということで、軽量マウスを買ってみることにしました。

軽量マウスはどれがオススメか

軽量マウスといえば、最近ゲーミングマウス用の製品で、肉抜きされた外装を持つマウスが人気でよく見かけます。
肉抜きすると補強用に骨格?部分を厚くする必要があるので、どれくらい軽量にできるかは微妙な気もしますが、蒸れずに通気性が良いメリットは確かにありそう。
マウスを購入するにあたって、軽量マウスでどれがよさそうか、いろいろ悩んでみました。
条件としては、70g前後の重量、ワイヤレス、という視点で選んでいます。

Logicool G PRO X SUPERLIGHT

定番中の定番というか、ロジクールの最軽量マウス。
重量はなんとワイヤレスでありながら63g未満という、凄いマウス。
それでいて、バッテリーは70時間程度持つという…。
欠点は16,000円という価格ですが、それ以外の点はほぼ最強。

購入の有力候補ではあったのですが、個人的に右手用に特化している、傾斜があるマウスの方がMX Masterなどの所有マウスとの違和感が少ないため、選択肢から外しました。
また、たまにはLogicool以外のマウスも使ってみたかったというか。



HyperX Pulsefire Haste

こちらも62gと極めて軽量、そしてワイヤレスなゲーミングマウス。
ハニカム構造の肉抜きシェルで軽量化をしているようです。
お値段は8,000円程度と、Logicoolより半額程度で買えるのが良いですね。
よさげなマウスですが、Logicoolと同様、左右対称デザインなので選択肢から外しました。



Razer Viper V2 Pro

58gという驚異的な軽さを持つ、Razerのゲーミング用ハイエンドマウス。
ワイヤレスで58gというのは、限界に近い重量でしょう。
ネックなのは22,000円という、Logicool G Pro X SuperLightをも超える価格。
これも左右対称デザインなので、除外しました。案外右手専用形状って、少ないのね…。



Steelseries AEROX 5 Wireless

今回購入したのがこちら、SteelseriesのAEROX5 Wireless。
同社製マウスとしてはAEROX3もありますが、こちらは左右対称デザインですが、AEROX5は右側に傾斜した、右手専用デザインを採用しています。
傾斜角はLogicoolのMXに比べればわずかですが、左右対称デザインのマウスと持ち比べると、遙かにこちらの方が自然です。
また、親指用の進む/戻る用サイドボタンのほかに、上下に動かすスイッチと、シルバーの部分もスイッチになっており、合計9ボタンの多機能マウスとなっています。
重量は74gと上で説明した他のマウスと比べると10g以上重たいですが、通常のマウスと比べると圧倒的に軽量です。



軽量マウスに交換してみた結果

仕事で使うマウスを、軽量なゲーミングマウスに交換した結果はどうだったかというと、

  • めっちゃ手が楽に!なんといってもマウスをものすごく軽い力で扱えるのがメリット大
  • 充電に関しては、2.4GHzモードだと物足りない持続時間、Bluetoothであれば十分実用の範囲
  • 9ボタンあるスイッチのうち、左側面の上下ボタンと銀色のボタンは使いづらいので、実質5ボタンマウス

といった感じで、圧倒的に便利になりました。
特に、マウスを重たく感じていたのが、軽量マウスだと手首への負担がとても少ないので、極めて快適です。
マウスを長い時間使うと腱鞘炎になる場合もありますが、軽量マウス+滑りの良いマウスパッドの組み合わせだと、手首にかかる負担は激減します。
腱鞘炎に悩む方にも、軽量マウスはオススメだと思います。
滑りにくい素材の上で、重たいマウスを使っていると手首への負担って大きいですからね。

特に、MX Masterは140gを超える重量級マウスですから、手首への負担も大きそうです。
AEROX 5の重量は半分程度なので、実際に使ってみるとその軽さは圧倒的です。

軽量マウス 唯一の不満

かといって、軽量マウスに不満が無いわけでもありません。
バッテリーの持続時間は軽さを重視しているため、バッテリーは必要最低限の容量、といった感じです。
このため、一般的なワイヤレスマウスと比べると圧倒的にバッテリーでの稼働時間が短いです。

マウスを使っていて最大のデメリットだと思うのが、ホイールがクリック・トゥ・クリックモードのみで、フリースピンが存在しないことです。
ゲームの場合、ホイールのフリースピンモードはまず使いませんので、ゲーミングマウスはほぼ全てがクリック・トゥ・クリックモード固定になっています。
Excelなどで大量の行を一気にスクロールする便利さになれてしまうと、クリック・トゥ・クリックモードは面倒です。

フリースピンも利用可能な軽量マウスってあればいいんですけどね…

ヘッドフォン沼へようこそ(HIFIMAN ANANDA/Beyerdynamic DT 1990 PRO/SENNHEISER HD 6XX/SHURE SE535)

今まではテレワーク中もスピーカーをメインで使っており、ヘッドフォンは夜くらいしか出番がありませんでした。
しかし、真空管アンプは電源食うし部屋も暑くなる…ということで、徐々にヘッドフォンの出番が増えてきました。

ヘッドフォンは長らくAudio TechnicaのATH-M9Xを使っていました。
1990年頃の製品なので、すでに30年以上前になりますが、ハイレゾ感はないもののモニターヘッドフォンたるストレートな音質と、ネオジムマグネットを使った強力なドライバーが相まって、今でも通用する名作ヘッドフォンだと思います。

なのですが、なんとなく買ったBeyerdynamicのDT 1990 PROのあまりのすごさに衝撃を受け、気づいたらいくつかのヘッドフォンを買うに至ってしまった、という訳。
ちなみに、数年前にSHUREのSE535も買って持っていますが、個人的にIEMはどうも音源が耳に近すぎるというか、スピーカーになれているというか、そんな感じであまり積極的には使っていなかったりします。

左から、

  • オーディオテクニカ ATH-M9X
  • Beyerdynamic DT 1990 PRO
  • SENNHEISER HD 6XX(HD 650同等品)
  • HIFIMAN ANANDA

となります。
ANANDA、デカすぎだろ…

スピーカーに対するヘッドフォンの良いところは、複数持っていても使い分けが簡単にできる、という点でしょう。
スピーカーって良くても2セット程度が限界で、あまり多いと置く場所に困ります。
また、スピーカーと異なりセッティングが不要、というのも良いところです。
スピーカーの場合、セッティングや部屋のサイズなどによって、かなり音って変わってきますからね…。

そんなこんなで手軽に買えてしまうヘッドフォン、スピーカーと違って沼になりやすいジャンルような気もします。
置き場所に困らないIEMとかはもっと沼かもしれません。

なんか、いろいろ買っていたら、AKG 812が余裕で買えそうな出費になってしまった気もしますが、それだと1種類の音しか楽しめないのに対し、4台もヘッドフォンがあると気分次第とかで使い分けができるので、それも楽しいものなので良しという感じです。

使い分けとしては、

  • オーディオテクニカ ATH-M9X → バックアップ機、特に出番無し…
  • Beyerdynamic DT 1990 PRO → 本気(?)で音楽を聴く時用、あとはたまにリスニングで
  • SENNHEISER HD 6XX(HD 650同等品)→ 仕事時に、高音域がキツくないリラックスした感じで聴きたいときに
  • HIFIMAN ANANDA → 常用ヘッドフォン。たいていこいつを使用

といった感じです。

一通り気になるヘッドフォンは揃ったので、これで打ち止めかなー。
もっとも、仕事しながら聴くことが多いので、そこまでガッツリハイエンド!っていうヘッドフォンじゃなくてもいいような気がします。
AKGの812/872も気になるのですが、価格がね…。5万円前後だとそこそこ気合い入れれば買えるのですが、さすがに10万を超えてくると、スピーカー買った方がよくない?!となりそうな感じで。
BS310 IndiesBlack → BS312とかにアップデートしてみたい気もしますし。

オーディオって、ある程度の上がりを決めておかないと、ズルズルと沼になってしまいやすいので、要注意です。