Cochi AI Blog

AIってすごいよね。

Tsubaki.2 LoRA 学習!SDXL経験者がつまずく「3つの常識の逆転」と、DiT.2時代の新しい設計論

「以前と同じ感覚でLoRAを作ったのに、なぜか上手くいかない」
Tsubaki.2 LoRA 学習に挑戦して、こう感じた人へ。これは技術不足ではない。LoRAの考え方そのものが変わったのだ。

私はこの1年弱、PixAI上で3つのLoRAを作ってきた。VTuberキャラ用の「Liz_DJ」、noteのサムネ用の「my LoRA」(どちらもSDXL系)、そして2026年6月、シリーズの主役・赤髪のCity Popキャラを最新世代でLoRA化した「City Pop My LoRA」(Tsubaki.2ベース)。

3作目は、前2作とまったく違う設計をすることになった。さらに今回、City Pop My LoRA は完成後にもう一度設計を見直し、v2 として作り直すことになった。その判断プロセスが、DiT.2時代のLoRA設計の核心を露わにしてくれた。

PixAIはブラウザだけで完結する、アニメ・二次元特化のAIイラスト生成サービスだ。同じ環境で、SDXL時代から最新DiT.2まで、世代を跨いだLoRA運用ができる。

今回は、SDXL系LoRAの経験を持つ人が、Tsubaki.2 LoRA 学習でつまずきやすい「3つの常識の逆転」を、実機検証ベースで掘り下げていく。

 

 

何が変わったのか?DiT.2世代の到来

PixAIには現在、3つのアーキテクチャ世代が並存している。
①SDXL系
Haruka v2、Hinata v2 など、Danbooruタグ文化と相性のいい従来型。
②DiT.1
Tsubaki、SDXL感覚との互換性が残る第1世代DiT。
③DiT.2
現行のTsubaki.2、最新世代。

DiT.2の最大の特徴は、プロンプト全体を文脈的に解釈すること。
SDXLは単語の羅列として処理する傾向があったが、DiT.2は文章として読み解く。この性質の変化が、LoRA学習の常識を3つ、根本から書き換えている。

【常識の逆転①】トリガーワードは「タグ」から「概念の名刺」へ

SDXL系では、トリガーワードは「短く、簡潔に」が常識だった。`hatsune_miku, vocaloid, twin_tails`といったかんじだ。
ところがTsubaki.2では、このルールが完全に逆転する。最低30文字以上、最大256文字以内で、特徴を文章的に詳細記述したフレーズが推奨される。

PixAIの学習画面に書かれているガイダンス文に、その思想が凝縮されている。

30英語文字以上の詳細な記述により、ベースモデルとの差分を正確に学習できます。

公式サイトより

「差分の学習」。この表現が核心だ。Tsubaki.2のLoRAは、画像を覚えるツールではない。ベースモデルが既に持つ膨大な知識との「違い」を、概念として定義する作業になっている。

私が City Pop My LoRA に採用したトリガーワードは以下。

city_pop_heroine, young woman, crimson red wavy long hair, amber-brown eyes, gentle smile, late 80s to 90s anime aesthetic, city pop atmosphere, ennui mode feminine, (ligne claire), flat colors, clear line style, cel-shaded

226字。`ennui`(フランス語:物憂げ)、`(ligne claire)`(ベルギーの線画スタイル)、`mode feminine`――SDXL時代なら「通じない」と避けたはずの文化的・概念的な語彙だ。DiT.2はプロンプトを文脈的に解釈するので、こういう概念語が効く可能性が高い。
つまりDiT.2時代のLoRAでは、Danbooruタグの羅列ではなく、対象を概念として言語化する語彙力が求められる。これは、SDXL時代のLoRA学習にはなかった次元の設計思想だ。

【常識の逆転②】データセットは「枚数」から「統一感の設計」へ

Tsubaki.2公式の推奨枚数は30〜100枚。100枚を超えると学習時間が伸びるだけで品質向上は望めない、と明記されている。
理由はシンプルで、Tsubaki.2のLoRAは「共通特徴を抽出して概念として定義する作業」だから。差分を抽出するために必要なのは、枚数ではなく特徴の一貫性だ。

公式ガイドの一文がこれを言い当てている。
「統一感のないデータセットからは、統一感のないLoRAしか生まれません」。

統一すべきは、世界観・キャラクター性・光と色調・塗りの質感・線の太さ。逆に、衣装・ポーズ・背景・シーンはあえて多様性を持たせる。データセットで固定された要素は、生成時にも固定されてしまうからだ。

【常識の逆転③】LoRAは「画像記憶」から「概念定義」へ

3つ目の逆転は、もっと根本的な思想転換だ。
SDXL時代のLoRAは「画像を覚える」作業だった。短いタグで対象を呼び出し、覚えたパターンを再現する。
Tsubaki.2のLoRAは「概念を定義する」作業になった。ベースモデルが持つ知識との差分を、言葉で言語化する。

クリエイターが向き合う問いは3つ。何を固定するべきか、何を変化させるべきか、どこを共通化するべきか。
この3つに設計として答えることが、Tsubaki.2 LoRA 学習における概念定義の本質だ。

これは、AIイラストの世界が「生成」から「設計」へ進化しているシグナルでもある。

実機検証 - City Pop My LoRA を作って、育てて、もう一度作り直すまで

学習時間は公式アナウンス通り約2時間。完成して、何シーンかテスト生成をしてみた。
深夜のカップ麺シーンと、黒ドレスに薔薇の花束を持つシーン。どちらも狙い通りの空気感で、同一性も担保されている。ガッツポーズ。

テスト生成①深夜のカップラーメン

プロンプト:部屋でくつろいで深夜にカップラーメンを食べている

テスト生成②バラの花束を持っている

プロンプト:黒いワンピースを着て薔薇の花束を抱えている

ここまでは順調だった。ところが…!

テスト③悲しんで泣いている

プロンプト:ランジェリー姿で悲しそうに泣いている

涙は出ているが、口元は微笑んだままだ。
私はトリガーワードに `gentle smile` を入れていた。これを永続特徴としてLoRAに伝えていたから、プロンプトの「悲しい」よりLoRAの「微笑み」が勝った。LoRAが設計通り、強く効きすぎている現象だ。

ここで一瞬「データセットに泣いている画像も必要だったのか」と考えた。でも、おそらくそれは違う。

Tsubaki.2は「泣いている女性」を既に膨大に学んでいる。LoRAの役割は、表情を学ばせることではない。city_pop_heroine というキャラに、ベースモデルが知っている表情を適用する許可を与えることだ。そのためには、データセットを変える必要はない。
トリガーワード設計で、表情の固定を外すだけでいい。
これがDiT.2時代の「画像記憶ではなく概念定義」の本当の意味だ。

v2 のトリガーワードはこれにした:

city_pop_heroine, young woman, crimson red wavy long hair, amber-brown eyes, expressive eyes, late 80s to 90s anime aesthetic, city pop atmosphere, ennui mode feminine, melancholic mood, (ligne claire), flat colors, clear line style, cel-shaded

`gentle smile` を削除し、`expressive eyes`(瞳が情感を表現する)と`melancholic mood`(憂愁の気配)を追加した。笑顔という指定ではなく、憂いという気配で固定し直す設計だ。同じデータセットで再学習。

同条件で再生成した結果がこれだ。

プロンプトは先ほどと同じ「ランジェリー姿で悲しそうに泣いている」

涙が頬を伝う。瞳が潤む。口元は微笑んでいない。膝を抱える防御姿勢、肩から首にかけて力が抜けた悲しみの体現。そして何より、City Pop特有のアンニュイさは保たれている。激情ではなく、静かに内側で耐える悲しみ。`melancholic mood` が狙いどおり気配として機能している。

データセットを変えなくても、トリガーワード設計の精緻化だけで、表情のコントロールが効く。ベースモデルの能力を信頼して、LoRA側は許可と方向性だけを伝える。これがDiT.2時代のLoRA設計の核心だ。

そしてLoRAは、育てる対象になった。一度作って終わりではなく、トリガーワードを精緻化しながら何度でも進化させていける。これは創作環境としての、静かだが決定的な進化だ。

世代が違えば、思想も設計も違う

3つの常識の逆転を整理する。

逆転①:トリガーワードは「タグ」から「概念の名刺」へ。30〜256字で、対象を概念として言語化する。

逆転②:データセットは「枚数」から「統一感の設計」へ。30〜100枚で、世界観・光・塗り・構図に一貫性を持たせる。

逆転③:LoRAは「画像記憶」から「概念定義」へ。トリガーワード設計の精緻化だけで、LoRAの挙動はコントロールできる。

世代が違えば、思想が違う。思想が違えば、設計が違う。それを理解した瞬間から、Tsubaki.2は急に手に馴染んでくる。
PixAIでのDiT LoRA学習の詳しい操作手順や、世代ごとの仕様は、公式ブログに体系的にまとめられている。SDXL資産のデータセット再利用や50%OFF再学習についても確認できる。

blog.pixai.art

 

私の City Pop My LoRA も、v1 から v2 へと進化した。これからも v3、v4 と、シリーズを描き続けるなかで育てていくつもりだ。