視覚障がい者支援は画像キャプション生成タスクの効果的な応用の1つである。 しかしながら、従来研究の多くは一般物体認識用途の対象物が明瞭に写っている高画質の画像データを学習に用いており、実用的な研究は発展途上である。 近年、視覚障がい者支援を目的とし、障がい者自身の撮影による VizWiz Image Caption Dataset が発表されたが、ブレや見切れなどにより適切なキャプション生成が困難な画像が少なくない。 被支援者は利用時に生成キャプションの妥当性が判断できないため、不適切なキャプションは大変不都合となる。 我々は、適切なキャプション生成が困難な画像に対し利用者に再度撮影を促すことが実用上重要と考え、事前検知の可能性について検証した。 本稿では、最先端のキャプション生成手法である AoANet が適切なキャプションを生成できない画像の事前検出を試みた。最先端手法を含む様々な深層学習モデルによる検証を行ったが、現時点ではこうした画像の事前検出は画像のみでは容易でないことが分かった。