1.5 模型 · CogVideoX 系列
1.5 模型 · CogVideoX 系列
3月4日修改
本文讨论了智谱开放平台中CogVideoX系列视频模型,介绍其能力、技术创新、生成案例、文档布局、不同模型参数及社区支持等内容。关键要点包括:
1.
模型能力:CogVideoX支持文生视频、图生视频,可用于广告、影视等领域创作,CogVideoX-5B质量更高,适合要求更高的用户。
2.
技术创新:研发3D VAE结构,降低训练成本和难度,结合3D RoPE提升捕捉帧间关系能力;打造端到端视频理解模型,增强可控性;采用创新transformer架构。
3.
生成案例:从社区整理了包含基本提示词编写等多种可控生成方案的案例。
4.
文档布局:子文档涵盖模型下载安装、推理、微调及辅助工具等详细技术文档。
5.
模型参数:CogVideoX-2B是入门级模型,CogVideoX-5B更好;给出不同推理精度、VRAM消耗量、推理速度、微调精度及VRAM消耗量等参数。
6.
使用限制:提示词语言为英文,长度限制226 Tokens,视频长度6秒,帧率每秒8帧,分辨率720 x 480 。
7.
社区支持:提供微信交流群及Discord社区链接 。
🎁
无需下载和配置,点击下方即可在线体验:
模型介绍
CogVideoX是智谱开放平台中最新上线的视频模型,现已支持文生视频、图生视频多个能力,让用户可以在开放平台使用和调用视频模型能力,轻松高效地完成艺术视频创作。体验中心支持多种生成方式,包括文本生成视频、图片生成视频,可应用于广告制作、电影剪辑、短视频制作等领域。
CogVideoX-5B 是中质量较高视频生成模型,提升了视频生成的质量与视觉效果,适合对生成效果有更高要求的用户。相较于入门级的 CogVideoX-2B,该模型具有更大的规模,支持更高精度的推理和优化,能够在保持高生成质量的同时减少资源消耗。
针对内容连贯性问题,智谱AI研发了一套高效的三维变分自编码器结构(3D VAE)。该结构能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,该技术有效提升了在时间维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。
在可控性方面,智谱AI打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令。
我们的模型采纳了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块,创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。
生成案例
目前视频生成在众多模型厂商都存在很多解决方案,我们从社区中整理了一部分案例,也许你在寻找的解决方案也在其中一种
文档布局