来源:壹鸽官网2019-09-29 16:05:15 热度:

音频检索在智能客服系统中的应用

Ai中国,cnaiplus.com

 

       随着人工智能技术的发展,越来越多的真人客服坐席被智能语音客服代替。对语音交互来说,语音识别技术Automatic Speech RecognitionASR)相对而言比较成熟了,在一些合作式交互场景(例如,语音转文字系统)下,确实可达到95%以上的准确率,但落地于实际项目(例如,智能语音客服系统),80%的准确率都很难达到,究其原因,实际应用中,人们说话都很随意,存在口音、噪音以及语言领域差异这些客观因素的影响,属于非合作交互方式,效果自然差很多。

       智能语音客服系统应用于实际场景,所采集到的语音信息是一种非语义符号表示和非结构化的二进制数据流,主要包括三大方面的信息:

1.      语音中包括的内容信息(语言文本信息)

2.      语音混杂在一起的背景环境声音信息

3.      语音中含有与说话人特征相关的信息(如性别、年龄以及情感状态等)

由于环境噪声、信道噪声等噪声问题,口语对话语音的形式多样性,例如方言,口语助词、迟疑、重复与停顿造成的语音不流畅,多个说话人重叠,以及句子边界定义模糊等,容易导致实际应用环境中智能语音客服机器人的表现不尽如人意,在收到非预期输入时也仅根据最大似然的识别结果将文本送给后续的语义理解模块处理并做出交互动作,容易导致语音交互流程不可控,严重影响交互体验。一款具有温情的智能语音客服机器人应该像人一样能够同时识别出说话人所讲的内容、其身份、年龄、性别、情感状态甚至背景声等多维信息,并透过置信度评价来衡量前端识别的可靠性,对于那些可能是错误的结果,加以特别的处理,或者将之完全舍弃,让系统仅接受正确的部分,在很大程度上可拓展语音识别的应用范围。

       音频检索经常作为说话人检测与跟踪或语音识别相关系统的前端,用以检测出包含语音的音频片段,提供高质量的语音给后面的系统做进一步处理,这对于构建一种全新的多维语音信息识别系统具有十分重要意义。

音频语义内容是通过对音频数据的分析获得音频中的一些特定语义内容。原始音频是非结构化的数据流,无法直接从中提取有意义的语义内容,这就需要对原始音频按一定语义内容进行时域上的分割,即音频结构分析。结构分析的任务是将组成音频的音频帧序列分割成时间上连续的几个集合,每个集合是一个内容上相对独立的、连续的结构单元。时间粒度较小的结构单元,虽然技术处理更为方便,但由于时间粒度过小,很难从中提取有价值的内容语义时间粒度过大的结构单元,虽然可以从中提取较完整的语义内容,但根据现有的技术对这样的结构单元直接处理是难于实现的。因此,音频结构分析应该集成不同时间粒度的结构单元,从低到高分层实现。

       本文定义如下具有不同时间粒度的音频结构单元:

      1. 音频帧(frame):音频是一个非平稳随机过程,其特性是随时间变化的,但这种变化是很缓慢的。鉴于此,可以将音频信号分成一些相继的短段进行处理。这些短段一般长20~30ms,称为音频帧,是音频处理中的最小单元。

2. 音频段(clip):由于音频帧的时间粒度太小,很难从中提取有意义的语义内容,所以需要在帧的基础上定义时间粒度更大的音频结构单元(通常比帧长大若干个数量级),本文称之为音频段。clip由若干帧组成,时间长度一定,是本文中音频分类的基本对象,具有一定语义,如语音clip,音乐clip等。clip的特征在音频帧特征的基础上计算得到。

3. 音频镜头(shot):这是从视频镜头引申过来的概念。由于clip太短,不适合进行语义内容分析。本文中定义含有同种音频类别的音频结构单元为音频镜头,音频镜头由若干相同类别的clip组成,时间粒度更大,时间长度不定,是音频分割的结果。具有一定的语义,如环境音镜头,音乐镜头等。

音频高层语义单元由音频镜头的不同组合形成的具有完整丰富语义内容的音频结构单元。根据需要可以有多层。它的分析是以下层单元为基础的,是音频结构化的目标。

上述这些结构单元是层次化音频结构组成要素,描述了音频结构化从低到高不断提升的过程。音频帧和音频clip是特征抽取对象,其中clip的特征在音频帧特征的基础上计算得到;音频段是音频分类对象,该层次上得到的是经过类别标注的音频clip序列;相同类别的clip序列构成音频镜头,采用的相关技术是音频分割技术;音频clip和音频镜头都具有一定的语义,主要是类别信息。不同的音频结构的不同组合形成高层音频结构单元,是具有完整丰富语音内容的音频对象。

       随着智能语音客服机器人产业的迅速发展,各种人机交互音频数据的数量非常庞大,因此有效管理、检索音频数据变得非常重要。解决大规模音频数据库的快速检索的有效手段之一是建立合适的音频索引,其中音频分割和标注是建立音频索引的基础。因此音频检索技术研究对构建多维语音信息识别系统具有十分重要意义。

Ai中国,cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com