1.

原始视频(必须只有一个人物)

2.

人声音频

文字转人声
3.

从背景音乐和声音中分离出人声

4.

从视频和音频的当前时间点开始配音

5.

唇形同步模型