Skip to content

Rits-Interaction-Laboratory/Phoneme2Img

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Phoneme2Img

pytorch

オノマトペの音素列と画像のクロスモーダルモデルを作成するリポジトリです。 image

本プロジェクトでは、オノマトペの音素列からテクスチャ画像、テクスチャ画像からオノマトペの音素列生成のクロスモーダル生成を行い、 クロスモーダル分散表現の獲得を目的としています。

我々が物体の質感やその情報を伝える際に用いられるオノマトペというものは曖昧に理解しながら用いられており、その正確な質感イメージの共有は困難です。そこでオノマトペの特徴を表した分散表現を獲得することができれば人々が持つオノマトペのイメージを具体化することができるのではないかと考えています。これが実現すれば実世界では例えばVR空間上で音素を使って物体の質感を変更することや、物体の質感特徴から最適な言語表現を生成してユーザに正確な質感イメージを提供することが可能になるのではないかと考えています。

要件

詳しいライブラリの依存関係は requirements.txt を参照して下さい。

  • Python 3.10.14(実行環境)
  • PyTorch 2.3.0(深層学習フレームワーク)

プログラムの実行方法

phoneme2imgのコードの実行は'main.py'で行います。検証や評価は'evaluate.py'にて行います。

ディレクトリ構成

|--img2img  --> テクスチャ画像からテクスチャ画像の生成の学習を行うコード
|--phoneme2img --> オノマトペの音素列からテクスチャ画像の生成の学習を行うコード
|--phoneme2phoneme --> オノマトペの音素列からオノマトペの音素列の生成の学習を行うコード

About

日本語オノマトペと画像の質感特徴間のマルチモーダル分散表現の獲得

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages