赞赞赞

运行了一下，模型很给力跑了一下很牛，目前做唱歌或者口播离线数字人质量应该最好的，但是合成视频太慢了，每段帧数用的默认值93，8 步（distill），案例给的的81秒音频合成视频int8,L20 上花了80分钟，虽然是离线合成，但是合成一分多钟视频花费80分钟几乎就没法用了，工程化优化缩减时间不大，坐等模型层面根源优化合成时间，官方大大加油吖。