用户2250用户2250
用户6177用户6177
用户1262用户1262
用户8097用户8097模型名称 | CogVideoX-2B | CogVideoX-5B | |
模型描述 | 入门级模型,兼顾兼容性,运行和二次开发成本低 | 模型更大,视频生成质量更高,视觉效果更好。 | |
推理精度 | FP16* (推荐), BF16, FP32, FP8*, INT8, 不支持 INT4 | BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持 INT4 | |
单 GPU 推理 VRAM 消耗量 | INT8: 与 torchao 一起使用 diffusers 7.8GB* | INT8: 与 torchao 一起使用 diffusers 11.4GB* | |
多 GPU 推理 VRAM 消耗量 | FP16: 使用 diffusers 10GB* | BF16: 使用 diffusers 15GB* | |
推理速度 (步骤 = 50, FP/BF16) | 单 A100: ~90 秒 单 H100: ~45 秒 | 单 A100: ~180 秒 单 H100: ~90 秒 | |
微调精度 | FP16 | BF16 | |
微调 VRAM 消耗量 (每个 GPU) | 47 GB (bs=1, LORA) 61 GB (bs=2, LORA) 62GB (bs=1, SFT) | 63 GB (bs=1, LORA) 80 GB (bs=2, LORA) 75GB (bs=1, SFT) | |
提示词语言 | 英文* | | |
提示词长度限制 | 226 Tokens | | |
视频长度 | 6 Seconds | | |
帧率 | 每秒 8 帧 | | |
视频分辨率 | 720 x 480, 不支持其他分辨率 (包括微调) | | |
位置编码 | 3d_sincos_pos_embed | 3d_rope_pos_embed | |
下载页面 (Diffusers) | |||
下载页面 (SAT) | SAT | | |