运行了一下,模型很给力跑了一下很牛,目前做唱歌或者口播离线数字人质量应该最好的,但是合成视频太慢了,每段帧数用的默认值93,8 步(distill),案例给的的81秒音频合成视频int8,L20 上花了80分钟,虽然是离线合成,但是合成一分多钟视频花费80分钟几乎就没法用了,工程化优化缩减时间不大,坐等模型层面根源优化合成时间,官方大大加油吖。
运行了一下,模型很给力跑了一下很牛,目前做唱歌或者口播离线数字人质量应该最好的,但是合成视频太慢了,每段帧数用的默认值93,8 步(distill),案例给的的81秒音频合成视频int8,L20 上花了80分钟,虽然是离线合成,但是合成一分多钟视频花费80分钟几乎就没法用了,工程化优化缩减时间不大,坐等模型层面根源优化合成时间,官方大大加油吖。