Flux プロンプト
この章では、画像のスタイルを調整するためにプロンプトを使用する方法を紹介します。同時に、より効率的な方法も紹介します。
この画像は AI によって生成されました
ComfyUI の基本的なノードと操作を理解したら、ComfyUI を使用して画像を生成できるはずです。
しかし、生成された画像の効果があなたが望むものではないかもしれません。例えば、アニメスタイルの画像を生成したいのに、生成された画像は実際の人物のスタイルになっているかもしれません。この時点で、AI が特定のスタイルの画像を生成するためにいくつかの手段を使用する必要があります。画像のスタイルを調整する方法はいくつかあります:
- 方法1:プロンプトを使用して生成効果を調整する。これは最も簡単な方法です。基本的に、デフォルトのワークフローで実現できます。この章では、プロンプトを使用して画像のスタイルを調整する方法を紹介します。同時に、より効率的な方法も紹介します。
- 方法2:異なる Flux Fine-Tune モデルを使用して生成効果を調整する。これは最も簡単な方法です。しかし、Flux モデルのファインチューニングコストは比較的高いため、Flux ファインチューニングモデルの数はそれほど多くありません。
- 方法3:LoRA を使用して生成効果を調整する。この方法は少し複雑ですが、メソッド1と比較して、ファインチューニングコストが低いため、現在はより多くの利用可能なモデルがあり、ファイルサイズもはるかに小さくなります。詳細については、Flux LoRA を参照してください。
1. Flux はあなたが考えているより賢い
まず、前の章で Flux は t5xxl_fp16 モデルを使用していると述べました。これは Stable Diffusion モデルよりもはるかに優れた意味理解能力を持っています。しかし、このモデルは Flux のプロンプトを書くことを Stable Diffusion よりも複雑にします。
私の実験と Flux ユーザーからのいくつかのフィードバックに基づいて、以下の洞察をまとめました:
Insight 1: Prompt は長くなるほど良いとは限らない
Stable Diffusion のプロンプトを書くとき、プロンプトが短すぎると、生成された画像の内容が比較的単純で、いくつかの内容が不足している可能性があります。そのため、多くの人は画像の内容を非常に詳細に記述し、非常に長いプロンプトを書く傾向があります。しかし、Flux では:
- あまりに多くの単語を与えると、要約されます。5000 語のプロンプトは約 100 トークンに圧縮されます。
- プロンプトが短すぎると、空白を埋めます。例えば、プロンプトは “Girl at the beach” のみで、Flux の T5 モデルは自動的にいくつかの他の関連するもの、例えば砂、青い空などを埋めます。
Insight 2: 単語の構文と意味を理解できる
Flux が Stable Diffusion より賢いもう一つの点は、単語の構文と意味を理解できることです。
そのため、画像のキー情報を個々のキーワードに分割し、特定の単語の重みを増加させるために様々な記号を使用する必要はありません。代わりに、自然に意図を記述できます。言い換えれば、通常通りに意図を記述するだけです。
Stable Diffusion が “left”, “right”, “top”, “bottom” を理解できないのに対し、Flux ではそれらを自然に使用でき、理解できます。例えば、以下の画像のプロンプトは:
結果、位置情報はほぼ正確で、絵文字を認識します:
Insight 3: 特定の単語と明確な単語がモデルに与える影響が大きい
私はそれが私の個人的な錯覚かもしれないと思っていますが、特定の単語と明確な単語がモデルに与える影響が大きいことを発見しました。
あなたがする必要があるのは、意図をできるだけ具体的かつ明確に記述することです。画像に必要な要素を記述します。曖昧な概念を使用するのではなく。同時に、積極的な単語を使用して、“Remove” や “Not Include” などの否定的な単語を避けます。これらの単語は基本的に Flux では効果がありません。
2. Prompt テンプレート
Flux のプロンプトは非常に賢いですが、プロンプトを整理するためにプロンプトテンプレートを使用することもできます。一般的に、プロンプトには以下の要素が必要です:
- オブジェクト:画像のメインの要素。位置、アクション、色、サイズなどの必要な詳細のみを説明してみてください。
- 環境:画像の環境。例えば、背景は何か、または光はどうか。
- スタイル:画像のスタイル。例えば、漫画、リアル、またはサイバーパンクなど。
上記の3つの要素が含まれていれば、かなり良い画像を生成できます。
もし、より細かい制御が必要な場合は、以下の要素を追加することもできます:
- Medium:画像の媒体。例えば、セルフィー、フィルムカメラ、スタジオ照明など。
- Artists:Style が不足している場合は、アーティストを指定することもできます(ただし、Flux は亡きアーティストにのみ機能するようです)。
- Time:Style が不足している場合は、画像の時代を指定することもできます。
3. 良いプロンプトを書く方法
上記の内容を読んで、Flux のプロンプトを書くのは非常に簡単だと思うかもしれません。しかし、多くの人(私を含む)は実際には一度にあなたが望む画像を生成できません。理由は:
- 多くの人が美学感覚が不足している:これは大きな問題です。あなたが望む画像の種類を知らないため、プロンプトを書く方法を知らないからです。
- 多くの人が美学知識が不足している:美しいものを知っていても、それをどう表現するかを知らない、例えば、世界に画家の名前が “Van Gogh” があることを知らない場合、プロンプトに “Van Gogh スタイル” を書くことはできません。
そのため、他の人がプロンプトをどのように書いているかを見て、それを模倣することをお勧めします。誰もが学習と参照を容易にするために、Flux プロンプトライブラリ で優れたプロンプトを共有します。
4. Prompt アシスタントプラグイン
最後に、いくつかのプロンプトアシスタント拡張機能をお勧めします。
4.1 Bilbox ComfyUI
最初のプラグインは Bilbox ComfyUI です。このプラグインは、プロンプトをより適切に整理するのに役立ちます。
ComfyUI マネージャーまたは Git Clone を通じてこのプラグインをインストールできます。詳細なインストール方法については、ComfyUI 拡張機能のインストールを参照してください。
このプラグインは、写真のようなイメージのプロンプトを作成するのに適していることに注意してください。
使用方法は非常に簡単です。まず、CLIP Text Encode
ノード(図の①)の前に BilboX
ノード(図の②)を挿入し、CLIP Text Encode
ノードの text
端子に接続します。次に、プラグインのプロンプトに従って、必要なプロンプトを入力または選択します。例えば、以下の図では、ストリートフォトグラフィーを選択し、いくつかの光のオプションを追加しました。生成された画像は非常に完璧です:
また、CLIP Text Encode
ノードの text
端子を表示する方法がわからない場合は、CLIP Text Encode
ノード(図の①)を右クリックし、Convert Widget to Input
(図の②)を選択し、Convert text to input
(図の③)を選択します。
4.2 Flux Prompt Generator
最初のプラグインは写真のようなプロンプトを生成するのに適していますが、2番目のプラグインはより完全な Flux プロンプトを生成できる Flux Prompt Generator です。
プラグインをインストールしたら、ワークフローに追加し、最初のプラグインよりもオプションが多いことがわかります:
4.3 ComfyUI Portrait Master
最後のプラグインは ComfyUI Portrait Master です。このプラグインは、フェイスの詳細に関する設定が多く、ポートレートシーンに適したプロンプトを作成するのに役立ちます。