1.

人物的正面照片

2.

用于合成视频的音频素材(.mp3/.wav)

制作音频
3.

唱歌模式(过滤音乐和噪音的干扰)

4.

照片驱动模型

5.

动作幅度

6.

输出画面比例