科学工具
科学工具让世界更美好
让世界更美好

AnimeGamer动漫生活模拟器,能根据指令生成动态动画和角色状态AnimeGamer动漫生活模拟器,能根据指令生成动态动画和角色状态

AnimeGamer 是一个无限动漫生活模拟器,使用多模态大型语言模型(MLLM)来模拟一个动漫世界,能预测下一时刻的游戏状态,用户可以通过开放式的语言指令与这个动态世界互动,就像扮演动漫角色一样。

AnimeGamer能够生成一致的多回合游戏状态,包括动态动画镜头和角色状态的更新,如体力、社交和娱乐值。玩家可以将《魔女宅急便》中的Qiqi和《天空之城》中的Pazu聚合在一起,让他们在动漫世界中相遇并进行互动。

AnimeGamer基于多模态大型语言模型(MLLMs),用于生成每个游戏状态,包括展示角色动作的动态动画镜头和角色状态的更新。

训练过程分为三个阶段:

1、使用动作感知的多模态表示来建模动画镜头,训练基于扩散的解码器来重建视频,输入还包括指示动作强度的运动范围。

2、训练一个MLLM来预测下一个游戏状态表示,输入为历史指令和游戏状态表示。

3、在适应阶段,通过使用MLLM的预测作为输入来微调解码器,提高解码动画镜头的质量。

快速开始

AnimeGamer的推理代码设计用于低VRAM环境(24GB内存),MLLM和VDM_Decoder可以分开运行,要设置推理环境,可以执行以下命令:

git clone https://github.com/TencentARC/AnimeGamer.git
cd AnimeGamer
conda create -n animegamer python==3.10 -y
conda activate animegamer
pip install -r requirements.txt

下载AnimeGamer和Mistral-7B的检查点,将它们保存在./checkpoints文件夹下,然后下载CogvideoX的3D-VAE:

cd checkpoints
wget https://cloud.tsinghua.edu.cn/f/fdba7608a49c463ba754/?dl=1
mv 'index.html?dl=1' vae.zip
unzip vae.zip

要生成动作感知的多模态表示并更新角色状态,可以运行:

python inference_MLLM.py

要将表示解码为动画镜头,可以运行:

python inference_Decoder.py

可通过修改./game_demo中的指令来自定义。