text-to-image 拡散モデルにおける誘導 attention map を用いた画像生成手法の提案

Abstract

拡散モデルによる画像生成技術であるLatent diffusion model(LDM)はノイズを付加させる拡散過程とノイズから画像を復元する逆拡散過程、cross attention(CA)機構により、テキストプロンプトの指示に応じた精細な画像を生成する技術として注目を集めている。 CA機構はテキストの埋め込みを潜在表現に組み込む役割を持ち、物体の要素や位置の決定に深くかかわっている。しかし複数の対象物を異なる色や位置に指定したときに、指示通りの画像が生成されない問題が存在し、現実にない組み合わせのときに顕著になる。本研究ではLDMに対する指示により忠実な画像生成のため、CAと特定の座標に物体を生成するためのattention mapを掛け合わせることで、対象物の色や位置を誘導する手法を提案する。

Publication
NLP 若手の会 (YANS) 第 19 回シンポジウム,2024.
北田 俊輔
北田 俊輔
Research Scientist working on Vision & Language with Deep Learning

My research interests include deep learning-based natural language processing, computer vision, medical image processing, and computational advertising.