来源：易智家2019-06-03 13:49:03 热度：

“语音+唇语”：“多模态”识别模式或是未来研发的必然趋势

AI中国网 h ttps://www.cnaiplus.com

在一次顶级国际学术会议上，中国搜狗人工智能公司与清华大学自然科学技术学院联合发布了一份关于语音和嘴唇多模态语音识别技术的领先技术报告。根据该报告，人工智能将来将能够根据说话者的“嘴唇+声音”更准确地识别讲话内容。

语音+唇语识别

人们早已眼界过智能机器人与人们建立会话的情景：高声通话SIRI这类的服务机器人的姓名，他们就会有所为答复，并按规定去进行某些命令。人工智能的语音识别技术越来越成熟，识别准确率达到98%以上。然而，有时他们仍然误解我们的意思，作出令人哭笑不得的反映。显而易见，人们必须智能机器人更精确地了解人们，特别是在是在噪杂自然环境下。

对此，研究人员提出了人工智能能否基于听觉和视觉识别提高语音识别准确率的想法。

在嘈杂的环境中，人们会自然地观察说话者的嘴唇变化，以增加他们对说话者意思的理解。事实上，听力受损的人可以通过说话者的嘴唇交流。因此，搜狗公司早在2017年底就已经发布了关于嘴唇识别的初步研究成果——搜狗应该是业内第一家公开展示嘴唇识别的公司——但当时准确率只有50%-60%，而且没有与语音识别系统联手。但是很快，研究小组将这两种识别模式结合起来，开发了一种新的“多模态”识别模式，最终提出了现在宣布的“语音+嘴唇”识别模式。

嘈杂环境下最为实用

当然，所谓的“多模态”识别模式不仅仅是音频和视频的简单添加模式。现在人脸识别实际上是一种“多模态”识别——“静止图像+3D图像”的识别方法——这有助于我们理解“多模态融合得越好，识别精确度就越高”的说法。

“语音+嘴唇”识别模式不仅仅是叠加音频和视频识别。从技术上讲，有两个关键问题:第一，音频和视频的帧速率不同，直接拼接会导致信息丢失；其次，在选择音视频的“贡献率”时，不容易把握。例如，声音应该在安静的环境中占主导地位，而视频必须在嘈杂的环境中占主导地位，并且应该根据不同的环境做出选择。

搜查犬使用“基于注意力的编解码器”解决了这个问题。解码器自动注意计算不同模态的特征表现，整合不同模态的信息。这样，不同模式下的“贡献率”自然会产生不同的值。当然，这种融合模型的设计是整个研究中最困难的一步。但是实验结果证实了所有设计的成功——在嘈杂的环境中，这个搜狗的“多模态”识别精度确实比纯语音识别高得多。此外，通过添加视频识别，人工智能还可以根据嘴唇形状识别句子的结尾。

研究人员表示，他们预计这种“多模态”识别模式将首先被集成到搜狗的手机输入法中，然后在一些联名汽车的麦克风和摄像头中使用。未来将会有更多的视频识别场景。搜狗认为，“多模态”识别模式是未来研发的必然趋势。

“语音+唇语”：“多模态”识别模式或是未来研发的必然趋势。

2018世界机器人博览会上的新型机器人

AI中国网 h ttps://www.cnaiplus.com

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com

智能推荐

无相关信息

精选

AI中国号...

关注微信公众号，了解最新精彩内容