オノマトペの音素列と画像のクロスモーダルモデルを作成するリポジトリです。
本プロジェクトでは、オノマトペの音素列からテクスチャ画像、テクスチャ画像からオノマトペの音素列生成のクロスモーダル生成を行い、 クロスモーダル分散表現の獲得を目的としています。
我々が物体の質感やその情報を伝える際に用いられるオノマトペというものは曖昧に理解しながら用いられており、その正確な質感イメージの共有は困難です。そこでオノマトペの特徴を表した分散表現を獲得することができれば人々が持つオノマトペのイメージを具体化することができるのではないかと考えています。これが実現すれば実世界では例えばVR空間上で音素を使って物体の質感を変更することや、物体の質感特徴から最適な言語表現を生成してユーザに正確な質感イメージを提供することが可能になるのではないかと考えています。
詳しいライブラリの依存関係は requirements.txt を参照して下さい。
- Python 3.10.14(実行環境)
- PyTorch 2.3.0(深層学習フレームワーク)
phoneme2imgのコードの実行は'main.py'で行います。検証や評価は'evaluate.py'にて行います。
|--img2img --> テクスチャ画像からテクスチャ画像の生成の学習を行うコード
|--phoneme2img --> オノマトペの音素列からテクスチャ画像の生成の学習を行うコード
|--phoneme2phoneme --> オノマトペの音素列からオノマトペの音素列の生成の学習を行うコード