「自分の好きなキャラクターを自由なポーズで描きたい」「特定の絵師さんのような独特なタッチを再現したい」と思ったことはありませんか。Stable Diffusionをそのまま使うだけでは、どうしても自分の理想に100%届かないもどかしさがありますよね。
そんな悩みを解決するのが、自分専用の追加学習データ「LoRA」の自作です。難しそうに聞こえますが、手順さえ踏めば誰でも自分だけのモデルを作れます。この記事を読み終える頃には、あなたのパソコンで理想の画像を量産するための第一歩を踏み出せているはずです。
LoRAを自作する前に!追加学習に必要なパソコンの性能
「手持ちのパソコンで動くかな?」という不安は、誰もが最初に通る道です。LoRAの自作は、普通の画像生成よりもパソコンに大きな負担をかけます。まずは、スムーズに作業を進めるための最低限の装備を確認しましょう。
NVIDIA製グラフィックボードが必須な理由
LoRAの学習には、NVIDIAというメーカーのグラフィックボード(グラボ)が必要です。これは「CUDA」というAI計算に特化した仕組みを使うためです。他のメーカーのグラボでも動く場合はありますが、設定が非常に難しく、初心者にはおすすめできません。
NVIDIAのグラボなら、世界中のユーザーが同じ環境でツールを開発しています。トラブルが起きても解決策がすぐに見つかるため、挫折する確率をグッと下げられます。まずは自分のパソコンの「タスクマネージャー」を開いて、グラボの種類を確認してみてください。
- NVIDIA GeForce RTXシリーズ:学習に最適
- AMD Radeonシリーズ:設定が非常に難しく非推奨
- Mac(M1/M2など):動作はするが速度はかなり遅い
ビデオメモリ(VRAM)は何GBあれば足りる?
学習の成否を分けるのは、グラボに積まれている「ビデオメモリ(VRAM)」の容量です。Stable Diffusion v1.5系の学習なら8GBでもなんとかなりますが、最近主流のSDXLやFlux.1を学習させるなら12GB以上が目安になります。
VRAMが足りないと、学習の途中でパソコンが止まってしまいます。これからグラボを新調するなら、**RTX 4070 Ti SUPER(VRAM 16GB)**あたりを選ぶと、どんなモデルの学習でも余裕を持ってこなせます。
学習時間を短縮するために必要なCPUとメモリ
グラボが主役ですが、脇を固めるパーツも大切です。CPUは画像の読み込みや加工を担当するため、Core i7やRyzen 7以上の性能があると待ち時間が減ります。
また、パソコン本体のメモリ(RAM)も最低16GB、できれば32GBあると安定します。学習中はパソコンがフルパワーで動くため、しっかりとした冷却ファンがついていることも、故障を防ぐための隠れたポイントです。
LoRAを自作するにはどのソフトを使う?導入のやり方
道具選びで迷う必要はありません。現在、世界中のクリエイターが愛用している鉄板のソフトがあります。これを使えば、難しいプログラムの知識がなくても画面上のボタン操作だけで学習が進められます。
世界標準のツール「Kohya_ss」をインストールする方法
LoRA自作の決定版といえるのが「Kohya_ss(コーヤ・エスエス)」です。これは日本の開発者であるkohya_ss氏が作成したツールで、世界中のAIユーザーが使っています。
英語のソフトですが、使い方は日本語の解説ブログがたくさんあります。まずはGitHubというサイトからファイルをダウンロードして、自分のパソコンの中に専用の作業部屋を作るイメージでインストールを進めましょう。
| ツール名 | Kohya_ss |
| 料金 | 無料(オープンソース) |
| 対応OS | Windows, Linux |
| 主な機能 | LoRA, LyCORIS, フルファインチューニング |
| 操作感 | ブラウザからポチポチ操作できるGUI形式 |
PythonとGitを正しくセットアップする手順
Kohya_ssを動かすには、「Python(パイソン)」と「Git(ギット)」という2つのソフトを先にパソコンに入れる必要があります。特にPythonはバージョンが大切で、3.10.6から3.10.11の範囲内を選ぶのが一番安定します。
インストールする際は「Add Python to PATH」というチェックボックスを必ずオンにしてください。これを忘れると、後の設定で「ソフトが見つかりません」というエラーに泣かされることになります。
ブラウザから操作できるGUI画面の立ち上げ方
準備ができたら、フォルダの中にある「setup.bat」というファイルを実行します。しばらく待つと「127.0.0.1:7860」のような数字が表示されるので、それをブラウザのURL欄に貼り付けてください。
すると、普段使っているStable Diffusionのような操作画面が現れます。ここから先の作業はすべてこのブラウザ画面で行うため、お気に入り登録をしておくと次回からが楽になります。
学習用データの準備手順!AIに教える画像の上手な選び方
ここからが腕の見せ所です。LoRAの出来栄えは、用意する画像の質で8割決まると言っても過言ではありません。「数より質」を意識して、AIにお手本を見せてあげましょう。
必要な画像の枚数は何枚?キャラと画風での違い
特定のキャラクターを覚えさせたいなら、15枚から25枚程度あれば十分です。逆に、特定の絵師さんの画風や、特定の風景の雰囲気を覚えさせたいなら、50枚から100枚くらい用意するのが理想的です。
枚数が多すぎると学習に時間がかかるだけでなく、逆に特徴がぼやけてしまうこともあります。まずは厳選した20枚程度で一度作ってみて、手応えを確かめるのが失敗しないコツです。
- キャラクター学習:15〜25枚(顔のアップ、全身、横顔を混ぜる)
- 画風・背景学習:50〜100枚(統一感のある画像を集める)
- 物の学習:10枚程度(色々な角度からの写真を用意する)
画像のサイズを512か1024に揃える理由
Stable Diffusionの古いモデル(v1.5)をベースにするなら512×512ピクセル、新しいモデル(SDXL)なら1024×1024ピクセルに画像をリサイズしましょう。バラバラのサイズだと、AIが学習する際に効率が悪くなってしまいます。
「Birme」などのWebツールを使えば、大量の画像を一度に正方形に切り抜けます。このとき、**「見せたい部分がしっかり中心にきているか」**を一枚ずつ確認することが、クオリティアップへの近道です。
学習の精度を下げる「ノイズ」になる画像の特徴
「とりあえずたくさん入れればいい」というのは間違いです。ぼやけた画像、文字が入っている画像、他のキャラクターが混ざっている画像は除外しましょう。
これらが混ざると、AIは「この文字もキャラクターの一部なんだ」と勘違いして覚えてしまいます。「これぞ理想!」と思える最高の一枚だけを集めることが、綺麗なLoRAを作るための鉄則です。
画像を文字で説明する!タギングとキャプションのやり方
画像を集めたら、次はAIに「この画像には何が写っているか」を教えてあげる作業です。これを「タギング」と呼び、専用のテキストファイルを作成します。
WD14 Taggerを使って自動でタグを付ける方法
一枚ずつ手入力するのは大変なので、Kohya_ssに内蔵されている「WD14 Tagger」を使いましょう。これを使えば、AIが画像を分析して「1girl, blue hair, school uniform」といったタグを自動で書き出してくれます。
画像と同じフォルダに、画像と同じ名前の「.txt」ファイルが作られれば成功です。このテキストの中身が、AIにとっての**「教科書」**になります。
独自のキーワード(トリガーワード)を決めるコツ
LoRAを呼び出すための合言葉を「トリガーワード」と呼びます。たとえば自分の名前が「Tanaka」なら、すべてのテキストファイルの先頭に「tanaka_style,」と書き加えましょう。
こうすることで、画像生成時に「tanaka_style」と入力するだけで、学習した特徴が呼び出せるようになります。他の一般的な英単語とかぶらない、自分だけの造語にするのがおすすめです。
背景や服のタグを消すべきか残すべきかの判断基準
ここが少しテクニカルな部分です。もし「服もセットで覚えさせたい」なら、タグの中から服に関する単語(school uniformなど)をあえて消します。
逆に「服は自由に着せ替えたい」なら、服のタグを残しておきます。**「タグを消した要素はLoRAに固定され、残した要素はプロンプトで変更可能になる」**という仕組みを理解すると、思い通りのLoRAが作れます。
実際にLoRAを作る!Kohya_ssの設定と追加学習のやり方
いよいよ学習の実行です。設定項目が多くて圧倒されますが、最初は「標準的な数値」から始めるのが正解です。
学習用フォルダをどこに作る?正しい階層ルール
Kohya_ssには決まったフォルダの作り方があります。デスクトップなどに「LoRA_work」という親フォルダを作り、その中に「img」「model」「log」という3つの空フォルダを作ってください。
さらに「img」の中に、**「10_mika」**のような名前のフォルダを作ります。この「10」という数字が、画像を何回繰り返して学習するかという指示になります。
学習率やバッチサイズなど基本設定の入力数値
最初は以下の数値をコピーして使ってみてください。これが最も失敗が少ない「標準」のセッティングです。
- 学習率(Learning Rate):0.0001 (1e-4)
- バッチサイズ(Batch size):1〜4(VRAMが少ないなら1)
- ネットワークランク(Dim):128
- ネットワークアルファ(Alpha):1
学習率は「AIがどれくらい一度に覚えるか」のペース調整です。数字が大きすぎると学習が雑になり、小さすぎるといつまでも覚えません。**「1e-4」**は、ちょうど良いバランスを保てる魔法の数字です。
ネットワークランク(Dim)の数字はどう決める?
「Dim」という項目は、LoRAにどれくらいの情報量を詰め込むかを決めます。数字を大きくするほど複雑な特徴を覚えられますが、ファイルの容量も大きくなり、学習に時間がかかります。
キャラクターなら128、シンプルな画風なら64程度で十分です。**「数字を大きくすれば必ず綺麗になるわけではない」**ということを覚えておくと、無駄に時間を浪費せずに済みます。
失敗を防ぐ学習用データの準備手順とフォルダの構成
学習ボタンを押す前に、最後の見直しをしましょう。フォルダの作り方が一箇所でも違うと、エラーが出て動いてくれません。
繰り返し回数をフォルダ名に書き込むルール
先ほど説明した「10_mika」というフォルダ名ですが、この数字選びにはコツがあります。一般的に、1枚の画像を合計で100回から200回くらい学習させるのが良いとされています。
もし画像が20枚なら、フォルダ名を「10_mika」にすれば、10回×20枚=200回の学習(1エポック分)になります。**「枚数×フォルダの数字」**が合計いくらになるかを計算して、数字を調整してみてください。
正則化画像を使って「AIの暴走」を防ぐ方法
「LoRAを使ったら、背景がいつも同じになってしまった」という失敗は、AIが特徴を覚えすぎてしまった(過学習)ことが原因です。これを防ぐために「正則化画像」というものを使います。
これは「一般的な女の子の画像」などをAIに見せて、「今から覚える特徴以外は、普通の画像と同じでいいんだよ」と教えてあげるための素材です。必須ではありませんが、クオリティを追求するならぜひ取り入れてみてください。
フォルダ構成を間違えると学習が始まらない罠
「Train」ボタンを押してもエラーが出る場合、原因のほとんどはフォルダの指定ミスです。Kohya_ssの画面で、先ほど作った「img」「model」「log」の各フォルダを正しく選択しているか、もう一度確認してください。
また、フォルダ名に日本語が混ざっていないかも重要です。**「C:\lora_training\img」**のように、すべて半角英数字で構成されたパスを使うのが、トラブルを未然に防ぐ最高の対策です。
自作したLoRAの使い方!テスト生成で出来栄えを確認する方法
学習が終わると「model」フォルダの中に、世界に一つだけの「.safetensors」ファイルができあがります。さっそく使ってみましょう。
Stable Diffusionのモデルフォルダへ移動させる手順
完成したファイルを、Stable Diffusion(WebUI)の中にある「models/Lora」というフォルダにコピーします。WebUIを立ち上げている場合は、画面内の「Refresh」ボタンを押すと、今作ったLoRAがリストに現れます。
これで準備は完了です。プロンプトの中に「lora:ファイル名:1.0」と書き込み、さらに決めておいたトリガーワードも一緒に入力して生成ボタンを押してみてください。
強度(Weight)を0.1刻みで変えて試すコツ
最初はLoRAの効き目が強すぎて、画像がぐちゃぐちゃになることがあります。その場合は、プロンプトの数字を「lora:ファイル名:0.7」のように少し下げてみてください。
逆に特徴が薄いときは「1.2」くらいまで上げてみます。**「0.5から0.8くらい」**で綺麗に特徴が出るのが、使い勝手の良い「成功したLoRA」の証拠です。
似ていない場合にチェックすべき設定項目
もし全然似ていないなら、原因は「学習回数が足りない」か「画像が良くない」かのどちらかです。まずは学習回数(エポック数)を増やして、もう一度作り直してみましょう。
それでもダメなら、学習用画像の中に、紛らわしい要素が混ざっていないか見直してください。「引きの画像ばかり」だと顔が似ず、「アップばかり」だと全身が描けなくなるため、バランス良く画像を用意するのが成功の秘訣です。
追加学習のやり方で迷ったときのトラブル対策
どれだけ気をつけていても、エラーはつきものです。よくある困りごとへの解決策をまとめました。
メモリ不足(Out of Memory)エラーが出たときの対処
「RuntimeError: CUDA out of memory」と出たら、グラボのメモリがいっぱいです。バッチサイズを1に下げるか、画像の解像度を小さく設定し直してください。
また、バックグラウンドで動いているソフト(YouTubeやゲームなど)をすべて閉じると、VRAMが数GB空くことがあります。学習中はパソコンを贅沢に独り占めさせてあげましょう。
画像が真っ黒になったり崩れたりする原因
生成された画像が砂嵐のようになったり、真っ黒になったりするのは「学習率が高すぎる」ときによく起こります。AIがパニックを起こして、正しい絵の描き方を忘れてしまった状態です。
学習率を**「5e-5」**など、さらに小さな数字にして作り直してみてください。時間はかかりますが、ゆっくり丁寧に教え込むことで、崩れにくい頑丈なLoRAができあがります。
学習が終わらないときに確認すべきステップ数
「いつまで経っても終わらない!」というときは、総ステップ数を確認しましょう。1万ステップを超えるような設定だと、高性能なグラボでも数時間かかります。
最初は**「合計1500〜3000ステップ」**くらいで終わるように調整するのが、テストを繰り返す上でも効率的です。短時間で回して結果を確認し、少しずつ設定を煮詰めていくのが、自作をマスターするための近道です。
この記事のまとめ:自分だけの最強LoRAを完成させよう
お疲れ様でした。ここまで読み進めたあなたは、LoRA自作の入り口に立っています。最後に大切なポイントを振り返りましょう。
- LoRA自作には、VRAM 12GB以上のNVIDIA製グラボがおすすめ。
- ツールは世界標準の「Kohya_ss」を選べば間違いない。
- 学習用画像は20枚程度を厳選し、ゴミのない綺麗な素材を用意する。
- トリガーワードを設定し、WD14 Taggerで正しいタグ(教科書)を作る。
- フォルダ名は「10_mika」のように繰り返し回数を数字で入れるルール。
- 最初は学習率「1e-4」からスタートし、強度を変えながらテスト生成する。
最初は失敗することもありますが、自分で作ったLoRAから理想の画像が出てきた瞬間の感動は格別です。まずは手元にある15枚の画像から、小さな一歩を踏み出してみませんか。
