Heygem 是硅基智能旗下数字人模型。以“零训练、秒级量产”突破行业桎梏,仅需1秒视频或1张照片,即可精准克隆数字人形象与声音,并在60秒内合成4K超高清视频。这一颠覆性技术,使得过去动辄数小时乃至数天的数字人制作流程骤然压缩至秒级,以远超行业标准的效率、精度与视觉表现,重新定义了数字人生产力的边界。在复杂光影、侧脸、遮挡等场景下,Heygem依然能够实现100%口型匹配和自然流畅的情感表达,真正使数字人从实验室走向实际应用。

Heygem可能很多人可能没听说过,包括硅基智能,但它确是低调且有实力的存在。之前一直在做商业数字人生成软件 ,上个月,突然就开源了旗下的数字人项目,猜测是旧版模型,因为我看官网的商业模型效果比这个更好。虽然没有商业模型效果好,但依然是免费开源里最强的数字人生成项目。


前段时间还听说国外的Heygen(一个商业数字人软件,其实就是国人在国外注册的公司)把Heygem告了,由头是Heygem侵权,猜测就是因为Heygem开源了,而且开源的效果媲美Heygen的商业模型,影响Heygen卖钱了(Heygem价格不是一般的贵),这简直是把Heygen整死的节奏啊。

当时开源的时候,我就自行摸索按照网上的教程本地搭建Docker,然后一步步搭建完成,但过程太复杂,中间也踩了不少坑,官方自带了一个客户端,还支持TTS功能,直接用文本生成语音,我测试了,转换语音的效果不太好。

前几天逛公众号,发现一位博主分享了这个包,然后私信问了这个博主,他说也是自己转载别人的,来源不明。于是决定分享给大家,因为这个效果是真的好。

原始Webui有一些问题,于是咨询了管理,在他的帮助下,修复完善了Webui,完善了用户体验。

这个包的环境不带CUDA,我看了CUDA是11.3,所以本地还是需要自己安装显卡驱动和CUDA环境的,本地CUDA不低于11.3就行。至于CUDA安装,教程论坛里有,新手可自行查阅论坛新手必看这个帖子。

下面说下使用,如下图,很简单,上传音频和视频,直接生成就好了。这里提醒下,视频长度最好大于音频,否则会出现跳帧的情况,虽然可以借助剪辑软件修复,但还是建议大家录制的素材视频长度长一些,比音频长就行了。

下载地址:点赞+收藏,私信领取
 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐