
数字人像有三种类型:
一、平台数字主播
平台给你提供了很多人物样式,类似这个腾讯智影 D-ID Heygen,这个是比较基础的。
二、虚拟偶像数字人
自己做一个虚拟的偶尔,像D-ID,看起来还是比较生硬。

使用HeyGen→Make a TalkingPhoto Video→Generate TalkingPhoto平台可生成虚拟偶像数字人,使用腾讯智影也可以生成,但需要3999/年或7999/年。
生成数字偶像人的通常方法是:
- 准备好虚拟人物照片,可以通过Ai工具,输入文字生成人物照片,比如:Stable Diffusion,Midjourney或者DALL-E2等。
- 准备文本内容,可以通过ChatGPT生成,然后再人为修改,也可以直接准备音频内容。
- 将上面两项合成,产生出一个视频,这里面包含了:文字转语音技术,图像识别,音频变化转化为口型,及肢体的联动。
三、克隆人数字人
- Heygen→Avatar Lite
199美元/每个人,声音另外收取99/每个人,需要5天左右生成完毕。
- 闪剪
- wav2lip
- 南京硅基 https://www.guiji.ai/#/index
完全的克隆人。
语音合成克隆
MockingBird,bark
人物说话有两种模式:1.文字驱动,你输入文字让人物去读;2.语音驱动,上传你自己的录音,让人物去读。
文字转语音的方式:
1. Whisper
文字转语音、音频转文字软件!双向转换,完全免费开源!支持 Windows、macOS、Linux
2. 剪映
可以快速将语音转为文字
3. 微软语音合成助手
4. 讯捷文字转语音
Ai数字人相github项目:
1. RAD-NeRF(有U界面)
https://github.com/ashawkey/RAD-NeRF
2. video-retalking(改口型和内容)
https://github.com/OpenTalker/video-retalking
3. DINet(改口型和内容)
https://github.com/MRzzm/DINet
和video-retalking类似也是改变视频中人物说话内容及口型
可以支持高分辦率的视频或者图片
4. Wav2Lip(社区活跃高)
https://github.com/Rudrabha/wav2Lip
该项目的特点是能根据任意语种生成高匹配度的口型
5. SadTalker(无限接近商用) (西安交大和腾讯合作的开源项目)
https://github.com/OpenTalker/SadTalker
该项目可以仅用一张人物头像图片加一段语音就能生成高质量的口型无限接近商用级别