试玩人工智能语音和虚拟人讲话视频生成——开源程序是科技进步的催化剂
虽然我不搞大模型生成的研究而专注于人工智能在医学领域应用技术开发的研究,但我对于人工智能生成语音和虚拟人讲话视频生成一直还挺好奇的。昨天晚上下班后我找到一个开源程序,然后捣鼓了一下,利用一张静态的照片和随手写的句子生成了以下短视频,看着效果相当不错。话不多说,上视频给大家看看:
由于该测试也涉及文字到语音的生成效果,因此初次测试选了英语,也便从网络上选了个西方人头像(这人应该是USA的,但生成口音专门选的英式,以明确其为人工智能生成,非截取的视频)。测试用的照片如下:
从效果上看,生成式人工智能已经相当不错,尤其是我用的是高校团队开发的,而非企业,一般来讲高校团队掌握的运算资源和训练用的原始素材都比较有限,做到这个程度相当好了。我的另外一个感触是,开源程序真的是现代科技的催化剂,计算已经展现出对各个科学和技术领域的促进作用,可以公开获取的开源程序,让技术开发变得容易,这使得有创新想法的人有更好的基础在短时间内完成技术实现,测试想法。同样的,我对论文开放获取也是赞成远多于批评。论文开放获取让普通人都可以更容易接触到科技前沿的进展,促进科技成果共享,这比其带来的某些负面因素重要得多。
最后,我再转回本次程序测试的话题,我感觉这类工具不仅适合娱乐用的网络视频制作,也可以用于各类专业用户外宣场景,甚至用于线上学术报告——用自己的照片把和写好的演讲材料生成视频代自己演讲,还省去了线下反复训练的时间,再不用担心卡壳,另外有的特殊人群也可以避免镜头下出现的意外尴尬。