
(保姆级教程)Windows系统本地部署通义万相2.1视频生成模型
2025年2月25日,阿里云旗下视频生成模型万相2.1宣布开源,提供1.3B和14B两个参数规格的全部推理代码和权重代码,可以用来文生视频和图生视频。接下来我们就一起来本地部署万相模型。
文章目录
2025年2月25日,阿里云旗下视频生成模型万相2.1宣布开源,提供1.3B和14B两个参数规格的全部推理代码和权重代码,可以用来文生视频和图生视频。接下来我们就一起来本地部署万相模型。
在线体验
在本地部署之前我们可以先在万相官网在线体验视频生成。点击左侧导航栏中的视频生成可以体验生成视频,同时还可以体验生成图像等功能。
本地安装
万相模型公布在Github在线仓库上,地址为https://github.com/Wan-Video/Wan2.1
,可以先访问该链接去查看相关代码。
所需环境
在下载万相源码和权重之前我们本地需要先进行配置,通常情况下我们会为新项目创建一个python运行环境,这里我们使用Anaconda来创建虚拟环境(可以点击链接下载安装),然后输入以下命令创建虚拟环境。
# 创建虚拟环境 your_name为你的环境名
conda create -n your_name python=3.10
# 进入刚刚创建好的环境
conda activate your_name
所需配置
这里说明一下,万相此次开源了1.3B和14B两个版本,两个模型所需要的显卡配置也不同,这里给出对比图,大家可以根据需要选择自己要安装的版本。
1.3B | 14B | |
---|---|---|
参数规模 | 13亿参数,轻量化设计 | 140亿参数,模型复杂度高 |
生成质量 | 480P分辨率,物理规律模拟能力接近闭源模型 | 支持720P分辨率,复杂运动(如旋转、碰撞)表现更逼真。 |
硬件需求 | 消费级显卡可运行(如RTX4090),仅需8G显存及以上的显卡即可运行。 | 需专业级显卡(如A100/H100),显存占用较高,需40G显存以上的显卡集群。 |
推理速度 | 5秒视频生成需5分钟左右(RTX4090) | 5秒视频需要10分钟(高分辨率)(需高性能CPU) |
应用场景 | 学术研究、二次模型调优、个人创作者 | 专业影视制作、广告特效开发 |
克隆仓库
使用以下命令将代码仓库从线上克隆到本地。
git clone https://github.com/Wan-Video/Wan2.1
# 克隆之后cd到文件夹下
cd Wan2.1
安装依赖
将项目克隆到本地之后,使用前面我们创建好的虚拟环境,开始下载项目运行所需依赖包。
conda activate your_name
PyTorch和CUDA安装
通常情况下,我习惯于单独安装PyTorch和CUDA,这样可以直接挑选所需版本进行安装,这里去PyTorch官网选择合适的版本进行安装,这里推荐选择PyTorch2.6和CUDA12.4版本进行安装(选择其他版本的PyTorch和CUDA一定要在安装之后进行检查,确认安装成功后即可),安装命令如下。
# 进入项目运行环境
conda activate your_name
# 下载PyTorch和CUDA
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0+cu124 --index-url https://download.pytorch.org/whl/cu124
安装整体依赖
在我们克隆项目之后,会在当前文件夹下出现requirements.txt
文件,该文件下是项目运行所需依赖,可以看到这里是所需依赖包的版本号,但是并没有给出具体版本,在安装的时候我们还是要指定具体的版本号,这样避免出现问题,因为前面我们已经安装了PyTorch,所以前两个依赖包给注释掉,另外tokenizers
包和flash-attn
单独安装,使用下列命令进行安装。
将requirements.txt
文件修改后上图右侧之后就可以输入下列命令安装相关依赖了
pip install -r requirements.txt
# 安装tokenizers
pip install tokenizers
flash-attn安装
上面我们有说到flash_attn
包单独安装,是因为这个依赖包原本是为Linux系统适配的,由于我们是本地Windows安装,所以我们需要找第三方依赖包来安装flash_attn
,这里提供第三方包的下载网址,点击之后选择自己所需要的依赖包下载到本地,然后输入以下命令进行安装(由于网络原因,如果不能下载的话,可以去公主号“非鱼AI视界”后台回复flash
获得文件)。
pip install D:\your_path\flash_attn-2.7.4.post1+cu124torch2.6.0cxx11abiFALSE-cp310-cp310-win_amd64.whl
下载模型
当以上操作都完成之后,我们就要下载所需要的模型了,由于我本地电脑只有16G显存,所以这里我下载1.3B版本的进行操作。按照官网上的说明,先下载huggingface-cli工具,然后再下载相关模型,命令如下:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-1.3B
也可以使用modelscope-cli工具进行下载,命令如下:
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-1.3B
测试万相
这里我们按照官网上提供的示例进行测试模型的输出:
两只拟人化的猫穿着舒适的拳击装备,戴着明亮的手套,在聚光灯下的舞台上激烈战斗
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage." --save_file your_path\test.mp4
注:直接使用上方中的命令即可,一定要选择最后的命令--save_file your_path\test.mp4
,虽然官网上没有该选项,但如果不加该选项,会无法保存生成的视频。
当看到以下页面,表示视频正在生成
当看到以下页面,表示视频生成完成:
这里我本地的设备是RTX 4060 Ti,16G显存,耗时15分钟左右,第一次运行的话,可能会导致显卡被全部占用导致页面卡顿,后面生成的时候就不会卡顿了。
结果展示
生成之后的结果如下:
可能出现的问题
参数问题
在使用生成命令进行视频生成的时候,如果显示下列报错,表明没有使用--save_file
选项。
依赖包问题
如果使用pip install -r requirements.txt
命令安装依赖包时报错,可能是由于tokenizers
包和flash_attn
包,只需要重新输入pip install tokenizers
,以及按照上述说明重新安装flash_attn
即可。
参考链接
更多推荐
所有评论(0)