阿里巴巴和国内外高校研究人员开发新读唇语AI,准确率大升

首先需要理解是,人工智能和机器学习算法能够从视频中读取唇语并非首创。早在2016年,来自谷歌和牛津大学的研究人员就详细介绍了一个系统,该系统可以以46.8% 的准确率为视频片段添加注释,其准确率超过了专业人类读唇器的12.4%。但即使是最先进的系统也难以克服唇动中的模糊性,使其性能无法超越基于音频的语音识别。

 

500

为了追求更高效的系统,阿里巴巴、浙江大学和史蒂文斯理工学院(Stevens Institute of Technology)的研究人员设计了一种方法,称为 LIBS(Lip by Speech),利用从语音识别器中提取的特征作为补充线索。他们说,在衡量准确性的在两个行业标杆基准测试上,它以7.66% 和2.75% 的字符错误率优于基线。

 

LIBS 和其他类似的解决方案可以帮助那些听力不好的人观看没有字幕的视频。据估计,全世界有4.66亿人遭受听力丧失,约占全世界人口的5%。根据世界卫生组织的数据,到2050年,这个数字可能会超过9亿。

 

500

LIBS 从人类说话者的视频中提取有用的音频信息,在多个尺度上,包括序列级、上下文级和帧级。然后通过识别它们之间的对应关系将这些数据与视频数据对齐(由于不同的采样率和有时出现在开头或结尾的空白,视频和音频序列具有不一致的长度) ,并利用滤波技术来精炼特征。

 

LIBS语音识别器和唇读器都构建于一种基于注意的序列到序列的体系结构,这是一种机器翻译方法,它将序列(即音频或视频)输入映射到具有标记和注意值的输出。

 

研究人员对他们进行了上述语言和 LRS2语言的训练,其中包含了超过45,000个来自 BBC 的口语句子,还有 CMLR 语言,这是中国最大的普通话唇读语料库,有超过100,000个来自中国网络电视网的自然句子(包括超过3,000个汉字和20,000个短语)。

 

研究小组指出,由于某些句子太短,该模型难以在 LRS2数据集上获得“合理”的结果 (译码器很难从少于14个字符的句子中提取出相关信息)。然而,一旦对长度最多为16个单词的句子进行预训练,解码器就可以利用上下文层面的知识,提高 LRS2数据集中句子末尾部分的质量。

 

“LIBS 减少了对无关框架的关注,”研究人员在一篇描述他们工作内容的论文中写道,“帧级知识提取进一步提高了视频帧特征的鉴别能力,使注意力更加集中。”

站务

最近更新的专栏

全部专栏