離散拡散モデルにおけるレイアウトの“固着”を緩和する Layout-Corrector の提案

Abstract

レイアウト生成は,カテゴリ・位置・サイズで記述される要素の集合を生成するタスクである.人間が試行錯誤を通じてレイアウトを洗練させるのに対し,現在主流の離散拡散モデル(DDM) では一度生成された要素が固着し,修正されないことを示す.この課題に対して,本研究では不調和な要素を検出するLayout-Corrector (LC) を提案する.LC はDDM の生成結果を評価し,評価値の低い要素を初期化することで要素の固着を防ぐ.実験の結果,様々なDDM に対して提案手法は一貫した性能改善を達成した.

Publication
第 27 回 画像の認識・理解シンポジウム,2024.
北田 俊輔
北田 俊輔
Research Scientist working on Vision & Language with Deep Learning

My research interests include deep learning-based natural language processing, computer vision, medical image processing, and computational advertising.