大規模言語モデルを用いたオノマトペ付与による日本語音声データセットの拡張

Abstract

現在、大規模言語モデル(LLM)を活用した音声認識合成技術が注目を集めている。日本語を対象とした研究も行われているが、モデル構築のための学習データ不足などの理由から、英語に比べると精度が低い。このため翻訳を介した手法が検討されているが、日本語特有の表現など課題があり精度向上の余地が残されている。本研究では日本語の特徴に着目し日本語データセットの作成方法を提案する。具体的にはLLMを用いて既存の日本語データセットのテキストに日本語表現として適切なオノマトペを付与する。我々はこの作成したデータセットを用いてキャプションから環境音を検索するtext-to-audioにおけるretrievalタスクで評価を行い、我々のデータセットと英語のデータセットを用いたモデルの性能を比較した

Publication
NLP 若手の会 (YANS) 第 19 回シンポジウム,2024.
北田 俊輔
北田 俊輔
Research Scientist working on Vision & Language with Deep Learning

My research interests include deep learning-based natural language processing, computer vision, medical image processing, and computational advertising.