計畫簡介
Champ是由阿裏巴巴、復旦大學和南京大學共同開發開發,旨在透過3D參數指導,實作對人體影像動畫的控制與一致性。該技術透過深度學習與影像處理的結合,允許使用者以前所未有的方式編輯和動畫化靜態人物影像,開啟了人工智慧在影像動畫領域的新視界。
掃碼加入交流群
獲得更多技術支持和交流
(請註明自己的職業)
Demo
框架
安裝
系統要求:Ubuntu20.04/Windows 11、Cuda 12.1
測試的 GPU:A100、RTX3090
建立conda環境:
conda create -n champ python=3.10
conda activate champ
安裝軟體包pip
pip install -r requirements.txt
安裝帶有poetry的軟體包
如果想在 Windows 裝置上執行此計畫,我們強烈建議使用poetry.
poetry install --no-root
下載預訓練模型
·下載基礎模型的預訓練權重:
1.StableDiffusion V1.5
https://huggingface.co/runwayml/stable-diffusion-v1-5
2.sd-vae-ft-mse
https://huggingface.co/stabilityai/sd-vae-ft-mse
3.影像編碼器
https://huggingface.co/lambdalabs/sd-image-variations-diffusers/tree/main/image_encoder
·下載Checkpoint:
檢查點包括去噪UNet、引導編碼器、參考UNet和運動模組。
最後,這些預訓練模型應該按如下方式組織:
./pretrained_models/
|-- champ
| |-- denoising_unet.pth
| |-- guidance_encoder_depth.pth
| |-- guidance_encoder_dwpose.pth
| |-- guidance_encoder_normal.pth
| |-- guidance_encoder_semantic_map.pth
| |-- reference_unet.pth
| `-- motion_module.pth
|-- image_encoder
| |-- config.json
| `-- pytorch_model.bin
|-- sd-vae-ft-mse
| |-- config.json
| |-- diffusion_pytorch_model.bin
| `-- diffusion_pytorch_model.safetensors
`-- stable-diffusion-v1-5
|-- feature_extractor
| `-- preprocessor_config.json
|-- model_index.json
|-- unet
| |-- config.json
| `-- diffusion_pytorch_model.bin
`-- v1-inference.yaml
推理
提供了幾組範例數據以供推理使用。請首先下載並將它們放置在 example_data 資料夾中。
以下是推理的命令:
python inference.py --config configs/inference.yaml
如果使用 poetry,命令是:
poetry run python inference.py --config configs/inference.yaml
動畫結果將保存在 results 資料夾中。您可以透過修改 inference.yaml 來更改參考影像或引導動作。
您還可以從任何視訊中提取驅動動作,然後使用 Blender 渲染。我們稍後將提供此操作的說明和指令碼。
註意: inference.yaml 中的預設動作 motion-01 包含超過 500 幀,大約需要 36GB 的視訊記憶體。如果遇到視訊記憶體問題,考慮切換到幀數較少的其他範例數據。
ComfyUI
ComfyUI教程連結:
https://www.youtube.com/watch?app=desktop&v=cbElsTBv2-A
計畫連結
https://github.com/fudan-generative-vision/champ
關註「 開源AI計畫落地 」公眾號