潜在拡散モデルにおけるプロンプトを用いた配色制御の試み

Abstract

潜在拡散モデル(LDM)はユーザーが指定したプロンプトテキストに応じた高品質な画像生成を可能にする。しかし、プロンプトで指定した描画対象とその色や材質などの属性の組み合わせが非現実的な場合、プロンプトに不忠実な画像が生成される問題がある。我々は、逆拡散過程において色、形の順に生成されると仮定し、配色制御用のプロンプトによるガイダンスを行うことで問題解決を目指す。具体的には、初めに目標の色を持つが対象ではない物体をプロンプトとして生成を開始し、ある程度デノイズが進んだ段階でプロンプトを目標の対象に変更する。これにより物体間での色の引継ぎを行う。本稿では拡散モデルの配色原理について議論し、最先端のLDMのStable Diffusion 3 モデルでも適切な画像生成が困難なプロンプトに対し、適切に色を反映できたことを報告する。

Publication
NLP 若手の会 (YANS) 第 19 回シンポジウム,2024.
北田 俊輔
北田 俊輔
Research Scientist working on Vision & Language with Deep Learning

My research interests include deep learning-based natural language processing, computer vision, medical image processing, and computational advertising.