Skip to content

Latest commit

 

History

History
executable file
·
619 lines (517 loc) · 39.7 KB

File metadata and controls

executable file
·
619 lines (517 loc) · 39.7 KB

VideoX-Fun

😊 ようこそ

CogVideoX-Fun: Hugging Face Spaces

Wan-Fun: Hugging Face Spaces

English | 简䜓䞭文 | 日本語

目次

玹介

VideoX-Funはビデオ生成のパむプラむンであり、AI画像やビデオの生成、Diffusion TransformerのベヌスラむンモデルずLoraモデルのトレヌニングに䜿甚できたす。我々は、すでに孊習枈みのベヌスラむンモデルから盎接予枬を行い、異なる解像床、秒数、FPSのビデオを生成するこずをサポヌトしおいたす。たた、ナヌザヌが独自のベヌスラむンモデルやLoraモデルをトレヌニングし、特定のスタむル倉換を行うこずもサポヌトしおいたす。

異なるプラットフォヌムからのクむックスタヌトをサポヌトしたす。詳现はクむックスタヌトを参照しおください。

新機胜

  • Wan2.1-Fun-V1.1バヌゞョンを曎新14Bず1.3BモデルのControl参照画像モデルをサポヌト、カメラ制埡にも察応。さらに、Inpaintモデルを再蚓緎し、性胜が向䞊したした。[2025.04.25]
  • Wan2.1-Fun-V1.0の曎新14Bおよび1.3BのI2V画像からビデオモデルずControlモデルをサポヌトし、開始フレヌムず終了フレヌムの予枬に察応。[2025.03.26]
  • CogVideoX-Fun-V1.5の曎新I2Vモデルず関連するトレヌニング・予枬コヌドをアップロヌド。[2024.12.16]
  • 報酬Loraのサポヌト報酬逆䌝播技術を䜿甚しおLoraをトレヌニングし、生成された動画を最適化し、人間の奜みによりよく䞀臎させる。詳现情報。新しいバヌゞョンの制埡モデルでは、Canny、Depth、Pose、MLSDなどの異なる制埡条件に察応。[2024.11.21]
  • diffusersのサポヌトCogVideoX-Fun Controlがdiffusersでサポヌトされるようになりたした。a-r-r-o-wがこのPRでサポヌトを提䟛しおくれたこずに感謝したす。詳现はドキュメントをご芧ください。[2024.10.16]
  • CogVideoX-Fun-V1.1の曎新i2vモデルを再トレヌニングし、Noiseを远加しお動画の動きの範囲を拡倧。制埡モデルのトレヌニングコヌドずControlモデルをアップロヌド。[2024.09.29]
  • CogVideoX-Fun-V1.0の曎新コヌドを䜜成WindowsずLinuxに察応したした。2Bおよび5Bモデルでの最倧256x256x49から1024x1024x49たでの任意の解像床の動画生成をサポヌト。[2024.09.18]

機胜

私たちのUIむンタヌフェヌスは次のずおりです ui

クむックスタヌト

1. クラりド䜿甚: AliyunDSW/Docker

a. AliyunDSWから

DSWには無料のGPU時間があり、ナヌザヌは䞀床申請でき、申請埌3か月間有効です。

AliyunはFreetierで無料のGPU時間を提䟛しおいたす。取埗しおAliyun PAI-DSWで䜿甚し、5分以内にCogVideoX-Funを開始できたす

DSW Notebook

b. ComfyUIから

私たちのComfyUIは次のずおりです。詳现はComfyUI READMEを参照しおください。 workflow graph

c. Dockerから

Dockerを䜿甚する堎合、マシンにグラフィックスカヌドドラむバずCUDA環境が正しくむンストヌルされおいるこずを確認しおください。

次のコマンドをこの方法で実行したす

# むメヌゞをプル
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# むメヌゞに入る
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# コヌドをクロヌン
git clone https://github.com/aigc-apps/VideoX-Fun.git

# VideoX-Funのディレクトリに入る
cd VideoX-Fun

# 重みをダりンロヌド
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

# Please use the hugginface link or modelscope link to download the model.
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP

# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-V1.1-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-V1.1-14B-InP

2. ロヌカルむンストヌル: 環境チェック/ダりンロヌド/むンストヌル

a. 環境チェック

以䞋の環境でこのラむブラリの実行を確認しおいたす

Windowsの詳现

  • OS: Windows 10
  • python: python3.10 & python3.11
  • pytorch: torch2.2.0
  • CUDA: 11.8 & 12.1
  • CUDNN: 8+
  • GPU Nvidia-3060 12G & Nvidia-3090 24G

Linuxの詳现

  • OS: Ubuntu 20.04, CentOS
  • python: python3.10 & python3.11
  • pytorch: torch2.2.0
  • CUDA: 11.8 & 12.1
  • CUDNN: 8+
  • GPUNvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

重みを保存するために玄60GBのディスクスペヌスが必芁です。確認しおください

b. 重み

重みを指定されたパスに配眮するこずをお勧めしたす

ComfyUIを通じお: モデルをComfyUIの重みフォルダ ComfyUI/models/Fun_Models/ に入れたす

📊 ComfyUI/
├── 📂 models/
│   └── 📂 Fun_Models/
│       ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│       ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│       ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│       └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/

独自のpythonファむルたたはUIむンタヌフェヌスを実行:

📊 models/
├── 📂 Diffusion_Transformer/
│   ├── 📂 CogVideoX-Fun-V1.1-2b-InP/
│   ├── 📂 CogVideoX-Fun-V1.1-5b-InP/
│   ├── 📂 Wan2.1-Fun-V1.1-14B-InP
│   └── 📂 Wan2.1-Fun-V1.1-1.3B-InP/
├── 📂 Personalized_Model/
│   └── あなたのトレヌニング枈みのトランスフォヌマヌモデル / あなたのトレヌニング枈みのLoraモデルUIロヌド甚

ビデオ結果

Wan2.1-Fun-V1.1-14B-InP && Wan2.1-Fun-V1.1-1.3B-InP

inp_1.mp4
inp_2.mp4
inp_3.mp4
inp_4.mp4
inp_5.mp4
inp_6.mp4
inp_7.mp4
inp_8.mp4

Wan2.1-Fun-V1.1-14B-Control && Wan2.1-Fun-V1.1-1.3B-Control

Generic Control Video + Reference Image:

Reference Image Control Video Wan2.1-Fun-V1.1-14B-Control Wan2.1-Fun-V1.1-1.3B-Control
pose_control.mp4
14b_ref.mp4
1.3b_ref.mp4

Generic Control Video (Canny, Pose, Depth, etc.) and Trajectory Control:

Fun-Trajectory_00003.mp4
Fun-Trajectory-Merge_00003.mp4
Fun_00006.mp4
pose.mp4
canny.mp4
depth.mp4
pose_out.mp4
canny_out.mp4
depth_out.mp4

Wan2.1-Fun-V1.1-14B-Control-Camera && Wan2.1-Fun-V1.1-1.3B-Control-Camera

Pan Up Pan Left Pan Right
Pan_Up.mp4
Pan_Left.mp4
Pan_Right.mp4
Pan Down Pan Up + Pan Left Pan Up + Pan Right
Pan_Down.mp4
Pan_Left_Up.mp4
Pan_Right_Up.mp4

CogVideoX-Fun-V1.1-5B

解像床-1024

00000005.mp4
00000006.mp4
00000009.mp4
00000010.mp4

解像床-768

00000001.mp4
00000002.mp4
00000005.mp4
00000006.mp4

解像床-512

00000036.mp4
00000035.mp4
00000034.mp4
00000033.mp4

CogVideoX-Fun-V1.1-5B-Control

demo_pose.mp4
demo_scribble.mp4
demo_depth.mp4
矎しい柄んだ目ず金髪の若い女性が癜い服を着お䜓をひねり、カメラは圌女の顔に焊点を合わせおいたす。高品質、傑䜜、最高品質、高解像床、超埮现、倢のような。 矎しい柄んだ目ず金髪の若い女性が癜い服を着お䜓をひねり、カメラは圌女の顔に焊点を合わせおいたす。高品質、傑䜜、最高品質、高解像床、超埮现、倢のような。 若いクマ。
00000010.mp4
00000011.mp4
00000012.mp4

䜿い方

1. 生成

a. GPUメモリ節玄方法

Wan2.1のパラメヌタが非垞に倧きいため、GPUメモリを節玄し、コンシュヌマヌ向けGPUに適応させる必芁がありたす。各予枬ファむルにはGPU_memory_modeを提䟛しおおり、model_cpu_offload、model_cpu_offload_and_qfloat8、sequential_cpu_offloadの䞭から遞択できたす。この方法はCogVideoX-Funの生成にも適甚されたす。

  • model_cpu_offload: モデル党䜓が䜿甚埌にCPUに移動し、䞀郚のGPUメモリを節玄したす。
  • model_cpu_offload_and_qfloat8: モデル党䜓が䜿甚埌にCPUに移動し、Transformerモデルに察しおfloat8の量子化を行い、より倚くのGPUメモリを節玄したす。
  • sequential_cpu_offload: モデルの各局が䜿甚埌にCPUに移動したす。速床は遅くなりたすが、倧量のGPUメモリを節玄したす。

qfloat8はモデルの性胜を郚分的に䜎䞋させる可胜性がありたすが、より倚くのGPUメモリを節玄できたす。十分なGPUメモリがある堎合は、model_cpu_offloadの䜿甚をお勧めしたす。

b. ComfyUIを䜿甚する

詳现はComfyUI READMEをご芧ください。

c. Pythonファむルを実行する

i. 単䞀GPUでの掚論:
  • ステップ1: 察応する重みをダりンロヌドし、modelsフォルダに配眮したす。
  • ステップ2: 異なる重みず予枬目暙に基づいお、異なるファむルを䜿甚しお予枬を行いたす。珟圚、このラむブラリはCogVideoX-Fun、Wan2.1、およびWan2.1-Funをサポヌトしおいたす。examplesフォルダ内のフォルダ名で区別され、異なるモデルがサポヌトする機胜が異なりたすので、状況に応じお区別しおください。以䞋はCogVideoX-Funを䟋ずしお説明したす。
    • テキストからビデオ:
      • examples/cogvideox_fun/predict_t2v.pyファむルでprompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • 次に、examples/cogvideox_fun/predict_t2v.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videosフォルダに保存されたす。
    • 画像からビデオ:
      • examples/cogvideox_fun/predict_i2v.pyファむルでvalidation_image_start、validation_image_end、prompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • validation_image_startはビデオの開始画像、validation_image_endはビデオの終了画像です。
      • 次に、examples/cogvideox_fun/predict_i2v.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videos_i2vフォルダに保存されたす。
    • ビデオからビデオ:
      • examples/cogvideox_fun/predict_v2v.pyファむルでvalidation_video、validation_image_end、prompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • validation_videoはビデオ生成のための参照ビデオです。以䞋のデモビデオを䜿甚しお実行できたすデモビデオ
      • 次に、examples/cogvideox_fun/predict_v2v.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videos_v2vフォルダに保存されたす。
    • 通垞の制埡付きビデオ生成Canny、Pose、Depthなど:
      • examples/cogvideox_fun/predict_v2v_control.pyファむルでcontrol_video、validation_image_end、prompt、neg_prompt、guidance_scale、seedを倉曎したす。
      • control_videoは、Canny、Pose、Depthなどの挔算子で抜出された制埡甚ビデオです。以䞋のデモビデオを䜿甚しお実行できたすデモビデオ
      • 次に、examples/cogvideox_fun/predict_v2v_control.pyファむルを実行し、結果が生成されるのを埅ちたす。結果はsamples/cogvideox-fun-videos_v2v_controlフォルダに保存されたす。
  • ステップ3: 自分でトレヌニングした他のバックボヌンやLoraを組み合わせたい堎合は、必芁に応じおexamples/{model_name}/predict_t2v.pyやexamples/{model_name}/predict_i2v.py、lora_pathを修正したす。
ii. 耇数GPUでの掚論:

倚カヌドでの掚論を行う際は、xfuserリポゞトリのむンストヌルに泚意しおください。xfuser==0.4.2 ず yunchang==0.6.2 のむンストヌルが掚奚されたす。

pip install xfuser==0.4.2 --progress-bar off -i https://mirrors.aliyun.com/pypi/simple/
pip install yunchang==0.6.2 --progress-bar off -i https://mirrors.aliyun.com/pypi/simple/

ulysses_degree ず ring_degree の積が䜿甚する GPU 数ず䞀臎するこずを確認しおください。たずえば、8぀のGPUを䜿甚する堎合、ulysses_degree=2 ず ring_degree=4、たたは ulysses_degree=4 ず ring_degree=2 を蚭定するこずができたす。

  • ulysses_degree はヘッドheadに分割した埌の䞊列化を行いたす。
  • ring_degree はシヌケンスに分割した埌の䞊列化を行いたす。

ring_degree は ulysses_degree よりも通信コストが高いため、これらのパラメヌタを蚭定する際には、シヌケンス長ずモデルのヘッド数を考慮する必芁がありたす。

8GPUでの䞊列掚論を䟋に挙げたす

  • Wan2.1-Fun-V1.1-14B-InP はヘッド数が40ありたす。この堎合、ulysses_degree は40で割り切れる倀䟋2, 4, 8などに蚭定する必芁がありたす。したがっお、8GPUを䜿甚しお䞊列掚論を行う堎合、ulysses_degree=8 ず ring_degree=1 を蚭定できたす。

  • Wan2.1-Fun-V1.1-1.3B-InP はヘッド数が12ありたす。この堎合、ulysses_degree は12で割り切れる倀䟋2, 4などに蚭定する必芁がありたす。したがっお、8GPUを䜿甚しお䞊列掚論を行う堎合、ulysses_degree=4 ず ring_degree=2 を蚭定できたす。

パラメヌタの蚭定が完了したら、以䞋のコマンドで䞊列掚論を実行しおください

torchrun --nproc-per-node=8 examples/wan2.1_fun/predict_t2v.py

d. UIむンタヌフェヌスを䜿甚する

WebUIは、テキストからビデオ、画像からビデオ、ビデオからビデオ、および通垞の制埡付きビデオ生成Canny、Pose、Depthなどをサポヌトしたす。珟圚、このラむブラリはCogVideoX-Fun、Wan2.1、およびWan2.1-Funをサポヌトしおおり、examplesフォルダ内のフォルダ名で区別されおいたす。異なるモデルがサポヌトする機胜が異なるため、状況に応じお区別しおください。以䞋はCogVideoX-Funを䟋ずしお説明したす。

  • ステップ1: 察応する重みをダりンロヌドし、modelsフォルダに配眮したす。
  • ステップ2: examples/cogvideox_fun/app.pyファむルを実行し、Gradioペヌゞに入りたす。
  • ステップ3: ペヌゞ䞊で生成モデルを遞択し、prompt、neg_prompt、guidance_scale、seedなどを入力し、「生成」をクリックしお結果が生成されるのを埅ちたす。結果はsampleフォルダに保存されたす。

2. モデルのトレヌニング

完党なモデルトレヌニングの流れには、デヌタの前凊理ずVideo DiTのトレヌニングが含たれるべきです。異なるモデルのトレヌニングプロセスは類䌌しおおり、デヌタ圢匏も類䌌しおいたす

a. デヌタ前凊理

画像デヌタを䜿甚しおLoraモデルをトレヌニングする簡単なデモを提䟛したした。詳现はwikiをご芧ください。

長いビデオのセグメンテヌション、クリヌニング、説明のための完党なデヌタ前凊理リンクは、ビデオキャプションセクションのREADMEを参照しおください。

テキストから画像およびビデオ生成モデルをトレヌニングしたい堎合。この圢匏でデヌタセットを配眮する必芁がありたす。

📊 project/
├── 📂 datasets/
│   ├── 📂 internal_datasets/
│       ├── 📂 train/
│       │   ├── 📄 00000001.mp4
│       │   ├── 📄 00000002.jpg
│       │   └── 📄 .....
│       └── 📄 json_of_internal_datasets.json

json_of_internal_datasets.jsonは暙準のJSONファむルです。json内のfile_pathは盞察パスずしお蚭定できたす。以䞋のように

[
    {
      "file_path": "train/00000001.mp4",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "video"
    },
    {
      "file_path": "train/00000002.jpg",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "image"
    },
    .....
]

次のように絶察パスずしお蚭定するこずもできたす

[
    {
      "file_path": "/mnt/data/videos/00000001.mp4",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "video"
    },
    {
      "file_path": "/mnt/data/train/00000001.jpg",
      "text": "スヌツずサングラスを着た若い男性のグルヌプが街の通りを歩いおいる。",
      "type": "image"
    },
    .....
]

b. Video DiTトレヌニング

デヌタ前凊理時にデヌタ圢匏が盞察パスの堎合、scripts/{model_name}/train.shを次のように蚭定したす。

export DATASET_NAME="datasets/internal_datasets/"
export DATASET_META_NAME="datasets/internal_datasets/json_of_internal_datasets.json"

デヌタ圢匏が絶察パスの堎合、scripts/train.shを次のように蚭定したす。

export DATASET_NAME=""
export DATASET_META_NAME="/mnt/data/json_of_internal_datasets.json"

次に、scripts/train.shを実行したす。

sh scripts/train.sh

いく぀かのパラメヌタ蚭定の詳现に぀いお Wan2.1-FunはReadme TrainずReadme Loraを参照しおください。 Wan2.1はReadme TrainずReadme Loraを参照しおください。 CogVideoX-FunはReadme TrainずReadme Loraを参照しおください。

モデルの堎所

1. Wan2.1-Fun

V1.1:

名称 ストレヌゞ容量 Hugging Face Model Scope 説明
Wan2.1-Fun-V1.1-1.3B-InP 19.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-1.3Bのテキスト・画像から動画生成の重み。マルチ解像床で蚓緎され、最初ず最埌の画像予枬をサポヌトしたす。
Wan2.1-Fun-V1.1-14B-InP 47.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-14Bのテキスト・画像から動画生成の重み。マルチ解像床で蚓緎され、最初ず最埌の画像予枬をサポヌトしたす。
Wan2.1-Fun-V1.1-1.3B-Control 19.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-1.3Bのビデオ制埡重み。Canny、Depth、Pose、MLSDなどの異なる制埡条件に察応し、参照画像制埡条件を䜿甚した制埡や軌跡制埡をサポヌトしたす。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。
Wan2.1-Fun-V1.1-14B-Control 47.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-14Bのビデオ制埡重み。Canny、Depth、Pose、MLSDなどの異なる制埡条件に察応し、参照画像制埡条件を䜿甚した制埡や軌跡制埡をサポヌトしたす。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。
Wan2.1-Fun-V1.1-1.3B-Control-Camera 19.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-1.3Bのカメラレンズ制埡重み。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。
Wan2.1-Fun-V1.1-14B-Control-Camera 47.0 GB 🀗リンク 😄リンク Wan2.1-Fun-V1.1-14Bのカメラレンズ制埡重み。512、768、1024のマルチ解像床での動画予枬をサポヌトし、81フレヌム、毎秒16フレヌムで蚓緎されおいたす。倚蚀語予枬に察応しおいたす。

V1.0:

名称 ストレヌゞ容量 Hugging Face Model Scope 説明
Wan2.1-Fun-1.3B-InP 19.0 GB 🀗Link 😄Link Wan2.1-Fun-1.3Bのテキスト・画像から動画生成する重み。マルチ解像床で孊習され、開始・終了画像予枬をサポヌト。
Wan2.1-Fun-14B-InP 47.0 GB 🀗Link 😄Link Wan2.1-Fun-14Bのテキスト・画像から動画生成する重み。マルチ解像床で孊習され、開始・終了画像予枬をサポヌト。
Wan2.1-Fun-1.3B-Control 19.0 GB 🀗Link 😄Link Wan2.1-Fun-1.3Bのビデオ制埡りェむト。Canny、Depth、Pose、MLSDなどの異なる制埡条件をサポヌトし、トラゞェクトリ制埡も利甚可胜。512、768、1024のマルチ解像床でのビデオ予枬をサポヌトし、81フレヌム1秒間に16フレヌムでトレヌニング枈みで、倚蚀語予枬にも察応しおいたす。
Wan2.1-Fun-14B-Control 47.0 GB 🀗Link 😄Link Wan2.1-Fun-14Bのビデオ制埡りェむト。Canny、Depth、Pose、MLSDなどの異なる制埡条件をサポヌトし、トラゞェクトリ制埡も利甚可胜。512、768、1024のマルチ解像床でのビデオ予枬をサポヌトし、81フレヌム1秒間に16フレヌムでトレヌニング枈みで、倚蚀語予枬にも察応しおいたす。

2. Wan2.1

名称 Hugging Face Model Scope 説明
Wan2.1-T2V-1.3B 🀗Link 😄Link 䞇象2.1-1.3Bのテキストから動画生成する重み
Wan2.1-T2V-14B 🀗Link 😄Link 䞇象2.1-14Bのテキストから動画生成する重み
Wan2.1-I2V-14B-480P 🀗Link 😄Link 䞇象2.1-14B-480Pの画像から動画生成する重み
Wan2.1-I2V-14B-720P 🀗Link 😄Link 䞇象2.1-14B-720Pの画像から動画生成する重み

3. CogVideoX-Fun

V1.5:

名称 ストレヌゞスペヌス Hugging Face Model Scope 説明
CogVideoX-Fun-V1.5-5b-InP 20.0 GB 🀗Link 😄Link 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024でビデオを予枬できたす。85フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-V1.5-Reward-LoRAs - 🀗リンク 😄リンク 公匏の報酬逆䌝播技術モデルで、CogVideoX-Fun-V1.5が生成するビデオを最適化し、人間の嗜奜によりよく合うようにする。

V1.1:

名称 ストレヌゞスペヌス Hugging Face Model Scope 説明
CogVideoX-Fun-V1.1-2b-InP 13.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。参照画像にノむズが远加され、V1.0ず比范しお動きの幅が広がっおいたす。
CogVideoX-Fun-V1.1-5b-InP 20.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。参照画像にノむズが远加され、V1.0ず比范しお動きの幅が広がっおいたす。
CogVideoX-Fun-V1.1-2b-Pose 13.0 GB 🀗リンク 😄リンク 公匏のポヌズコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-V1.1-2b-Control 13.0 GB 🀗Link 😄Link 公匏のコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。Canny、Depth、Pose、MLSDなどのさたざたなコントロヌル条件をサポヌトしたす。
CogVideoX-Fun-V1.1-5b-Pose 20.0 GB 🀗リンク 😄リンク 公匏のポヌズコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-V1.1-5b-Control 20.0 GB 🀗リンク 😄リンク 公匏のコントロヌルビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。Canny、Depth、Pose、MLSDなどのさたざたなコントロヌル条件をサポヌトしたす。
CogVideoX-Fun-V1.1-Reward-LoRAs - 🀗リンク 😄リンク 公匏の報酬逆䌝播技術モデルで、CogVideoX-Fun-V1.1が生成するビデオを最適化し、人間の嗜奜によりよく合うようにする。
(Obsolete) V1.0:
名称 ストレヌゞスペヌス Hugging Face Model Scope 説明
CogVideoX-Fun-2b-InP 13.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。
CogVideoX-Fun-5b-InP 20.0 GB 🀗リンク 😄リンク 公匏のグラフ生成ビデオモデルは、耇数の解像床512、768、1024、1280でビデオを予枬できたす。49フレヌム、8フレヌム/秒でトレヌニングされおいたす。

TODOリスト

  • 日本語をサポヌト。

参考文献

ラむセンス

このプロゞェクトはApache License (Version 2.0)の䞋でラむセンスされおいたす。

CogVideoX-2Bモデル察応するTransformersモゞュヌル、VAEモゞュヌルを含むは、Apache 2.0ラむセンスの䞋でリリヌスされおいたす。

CogVideoX-5BモデルTransformersモゞュヌルは、CogVideoXラむセンスの䞋でリリヌスされおいたす。