Flux モデル、正式名称 FLUX.1、は Black Forest Labs によって発表された最先端のテキストから画像生成モデルです。
Black Forest Labs は Stability AI のコアメンバーである Robin Rombach によって設立された会社で、画像生成技術に焦点を当てています。会社は $3200 万ドルの投資で設立されました。
Linear Projectorに加えて、T5エンコーダーもFluxモデルの重要な変更点です。T5エンコーダーはT5モデルアーキテクチャに基づくテキストエンコーダーで、テキスト命令をモデルが理解できる単語ベクトルに変換します。そして、これらの単語ベクトルは、Latent Imageデータと共にLinear Projectorに送られ、1次元のTokenデータに変換されます。同時に、これらのデータはノイズ除去ループの入力として使用されます。可視化されたプロセスは以下の通りです: