首页 / 文档与资料 / 正文

Ai数字人像相关技术

2025年9月17日 2 浏览 0 评论

数字人像有三种类型:

一、平台数字主播

平台给你提供了很多人物样式,类似这个腾讯智影 D-ID Heygen,这个是比较基础的。

二、虚拟偶像数字人

自己做一个虚拟的偶尔,像D-ID,看起来还是比较生硬。

使用HeyGen→Make a TalkingPhoto Video→Generate TalkingPhoto平台可生成虚拟偶像数字人,使用腾讯智影也可以生成,但需要3999/年或7999/年。

生成数字偶像人的通常方法是:

  1. 准备好虚拟人物照片,可以通过Ai工具,输入文字生成人物照片,比如:Stable Diffusion,Midjourney或者DALL-E2等。 Untitled
  2. 准备文本内容,可以通过ChatGPT生成,然后再人为修改,也可以直接准备音频内容。
  3. 将上面两项合成,产生出一个视频,这里面包含了:文字转语音技术,图像识别,音频变化转化为口型,及肢体的联动。

三、克隆人数字人

  1. Heygen→Avatar Lite

199美元/每个人,声音另外收取99/每个人,需要5天左右生成完毕。

  1. 闪剪
  2. wav2lip
  3. 南京硅基 https://www.guiji.ai/#/index

完全的克隆人。

语音合成克隆

MockingBird,bark

人物说话有两种模式:1.文字驱动,你输入文字让人物去读;2.语音驱动,上传你自己的录音,让人物去读。

文字转语音的方式:

1. Whisper

文字转语音、音频转文字软件!双向转换,完全免费开源!支持 Windows、macOS、Linux

2. 剪映

可以快速将语音转为文字

3. 微软语音合成助手

4. 讯捷文字转语音

Ai数字人相github项目:

1. RAD-NeRF(有U界面)

https://github.com/ashawkey/RAD-NeRF

2. video-retalking(改口型和内容)

https://github.com/OpenTalker/video-retalking

3. DINet(改口型和内容)

https://github.com/MRzzm/DINet

和video-retalking类似也是改变视频中人物说话内容及口型

可以支持高分辦率的视频或者图片

4. Wav2Lip(社区活跃高)

https://github.com/Rudrabha/wav2Lip

该项目的特点是能根据任意语种生成高匹配度的口型

5. SadTalker(无限接近商用) (西安交大和腾讯合作的开源项目)

https://github.com/OpenTalker/SadTalker

该项目可以仅用一张人物头像图片加一段语音就能生成高质量的口型无限接近商用级别

本文链接:https://www.aiunk.com/96400/

“即使被人记恨 只要各位安好 抛弃一切便好”

—— 未知《原创》

本站内容来源于互联网,所有转载、引用的文章、图片、视频等素材均来自网络公开渠道。我们对所转载的内容的版权和合法性不做任何保证。如果原作者或版权方认为本站内容侵犯其合法权益,敬请原作者或版权方及时联系我们,我们将在第一时间进行核实和处理,必要时删除相关内容。 本站的所有内容仅供个人学习与研究之用,不得用于任何商业用途。如需使用本站内容进行商业用途,请与原作者或版权所有者联系获取授权。 如有任何疑问或建议,请联系我们。

分享: