當前位置: 妍妍網 > 碼農

Champ:阿裏釋出新模型,開源一天就有2k星星,只要一張照片就能生成跳舞視訊

2024-04-02碼農

計畫簡介

Champ是由阿裏巴巴、復旦大學和南京大學共同開發開發,旨在透過3D參數指導,實作對人體影像動畫的控制與一致性。該技術透過深度學習與影像處理的結合,允許使用者以前所未有的方式編輯和動畫化靜態人物影像,開啟了人工智慧在影像動畫領域的新視界。

掃碼加入交流群

獲得更多技術支持和交流

(請註明自己的職業)

Demo

框架

安裝

系統要求:Ubuntu20.04/Windows 11、Cuda 12.1

測試的 GPU:A100、RTX3090

建立conda環境:

conda create -n champ python=3.10 conda activate champ

安裝軟體包pip

pip install -r requirements.txt

安裝帶有poetry的軟體包

如果想在 Windows 裝置上執行此計畫,我們強烈建議使用poetry.

poetry install --no-root

下載預訓練模型

·下載基礎模型的預訓練權重:

1.StableDiffusion V1.5

https://huggingface.co/runwayml/stable-diffusion-v1-5

2.sd-vae-ft-mse

https://huggingface.co/stabilityai/sd-vae-ft-mse

3.影像編碼器

https://huggingface.co/lambdalabs/sd-image-variations-diffusers/tree/main/image_encoder

·下載Checkpoint:

檢查點包括去噪UNet、引導編碼器、參考UNet和運動模組。

最後,這些預訓練模型應該按如下方式組織:

./pretrained_models/|-- champ| |-- denoising_unet.pth| |-- guidance_encoder_depth.pth| |-- guidance_encoder_dwpose.pth| |-- guidance_encoder_normal.pth| |-- guidance_encoder_semantic_map.pth| |-- reference_unet.pth| `-- motion_module.pth|-- image_encoder| |-- config.json| `-- pytorch_model.bin|-- sd-vae-ft-mse| |-- config.json| |-- diffusion_pytorch_model.bin| `-- diffusion_pytorch_model.safetensors`-- stable-diffusion-v1-5 |-- feature_extractor | `-- preprocessor_config.json |-- model_index.json |-- unet | |-- config.json | `-- diffusion_pytorch_model.bin `-- v1-inference.yaml

推理

提供了幾組範例數據以供推理使用。請首先下載並將它們放置在 example_data 資料夾中。

以下是推理的命令:

python inference.py --config configs/inference.yaml

如果使用 poetry,命令是:

poetry run python inference.py --config configs/inference.yaml

動畫結果將保存在 results 資料夾中。您可以透過修改 inference.yaml 來更改參考影像或引導動作。

您還可以從任何視訊中提取驅動動作,然後使用 Blender 渲染。我們稍後將提供此操作的說明和指令碼。

註意: inference.yaml 中的預設動作 motion-01 包含超過 500 幀,大約需要 36GB 的視訊記憶體。如果遇到視訊記憶體問題,考慮切換到幀數較少的其他範例數據。

ComfyUI

ComfyUI教程連結:

https://www.youtube.com/watch?app=desktop&v=cbElsTBv2-A


計畫連結

https://github.com/fudan-generative-vision/champ


關註「 開源AI計畫落地 」公眾號