来源:壹鸽官网2019-09-29 16:21:17 热度:

如何构建语音大数据信息处理平台

Ai中国,cnaiplus.com

       信息主要存在3种表达方式:文本(文字)、音频(声音)、视频(图像)

 

       对于3种信息表达方式的理解和应用,是信息处理系统的基本研究内容。信息从产生起就具备各种属性,对这些属性进行理解、开发和利用成为各类成功企业的基础。壹鸽科技的智能语音平台已经实现了每天对百万级别的语音交互数据的感知获取,数据获取后是对其进行存储管理,然后针对不同的业务应用不同的算法进行计算,最后落地于应用场景,如环境音感知、语音识别后文本置信度估计、性别、年龄以及情感状态等。壹鸽科技秉持“一切业务数据化,一切数据业务化”的理念来构建语音大数据信息处理平台,实现从数据(离线)到业务(在线)再反馈回来到数据(离线)这样一个全流程闭环,让平台具备自学习、主动更新的能力。

 

9b1c52390b7b36f5a3b21eccb5ff3892.png

1 语音大数据信息处理平台

 

如何去构建语音大数据信息处理平台,关键第一步是实现语音大数据的半自动化标注。语音大数据的特点可以总结为4V,即是volume(体量浩大)variety(模态繁多)velocity(生成快速)value(价值巨大但密度很低)。对这类数据进行标注存在很多亟待解决的难题,主要表现为:

1)语音数据的标注代价昂贵

为构建语音大数据机器学习的通用模型,就必须借助人工对语音数据进行标注,但是当数据量增大时,标注工作会耗费大量的时间精力,靠人工逐一标注显然是不切实际的,尤其是对小概率事件的标注,由于小概率事件在整个智能语音平台感知获取的数据中所占的比例太小,且可能出现的时间点也比较分散,因此就需要标注更多的音频语料以获得足够的小概率事件的标注数据。

 2)语音数据标注属性定义困难

电话信道下通话背景复杂多变,音频事件丰富多样,如环境噪声、非发音人说话、发音人咳嗽、呼吸声等,且不同的音频事件在时域上会有交叠,导致标注人员无法准确区分和定义所有出现过的音频事件。标注人员对音频事件的定义带有很强的主观性,不同人对同一声学事件的理解会有不同,因此,许多人同时参与标注工作时,会产生标注不一致问题,即使制定了统一的标注方案,但由于复杂音频语料中音频事件类型太多,且有的音频事件概率出现频率较低,标注方案是难以覆盖所有的音频事件类型。

3)数据不平衡问题

       复杂音频语料中,不同音频事件出现的频率可能相差较大,有的音频事件在整个音频语料数据集中可能只占很小的比例,但却可能是一个不容忽视的关键音频事件,在对这类音频事件进行检测时,目标音频事件的样本数目和非目标音频事件的样本数目会存在较大差别,因而会引起数据不平衡问题。

 

       为此,壹鸽科技采用了基于池采样的主动学习技术来辅助人工标注。主动学习系统主要包括(C,Q,E,L,U)几部分:C是分类器,是由已标注训练集L训练得到的;Q是查询函数,用来从未标注样本集U中选择信息含量最大的样本;E是专家,可对Q选择的信息含量大的样本赋予正确的标签。基于池采样的主动学习过程为:初始的L中会有少量的已标注样本,用L训练一个初始的粗糙分类器,然后用Q从未标注样本集U中挖掘信息量大的未标注样本,由E标注后放入训练集L,再用更新的L重新训练C,以上过程重复迭代,直到满足停止准则。基于池采样的主动学习框图详见图1

 

bb422fee90b1a6f1de5adb5274ef3b6b.png

2 基于池采样的主动学习框图

 

基于池采样的主动学习技术可以实现对语音大数据集进行面向业务应用的底层数据操作、存储、归并、清洗、转化。基于第一步形成的数据集进行处理,一可方便业务系统进行调用、查询、展现,二可利于分析系统更有效的提取数据特征,进行相应的分析。目前,壹鸽科技采用两种方法获取组合特征参数。

第一种方法是基于MATLAB仿真平台获得融合特征,它是由基于谱、韵律、质量特征这三方面的声学特征组成。即由一维的基因频率、三维的共振峰、一维的短时能量和12MFCC机器一阶差分串联而成的41维组合特征参数。

第二种方法是采用OpenSMILE工具箱提起的特征参数,能够更加充分的利用语音各帧之间的相关性,且涉及的特征种类多达900多种,包括MFCC、线谱频率、基音、强度和响度等多种特征值及其统计值。另外,OpenSMILE参数提取器还能提供不同维度、不同任务、自定义式的参数选择,具有足够的灵活性和便携性。

因为特征向量维数较高,其中可能存在些许干扰信息,造成冗余和资源浪费,即降低了系统的鲁棒性,又增加了计算复杂度。所以还需合理选择参数维度并适当考虑运用降维技术。

壹鸽科技通过研究语音大数据底层可检测分析变量和特征的算法方法,把其标注化,模块化构建语音大数据需要处理的各类基础能力,并定义各类模块化对外服务接口,使语音大数据的处理更加面向通用型的机器学习平台。同时探索语音大数据特征提取技术面向大数据集的处理效率,满足大规模多样化任务识别的需求。

 

壹鸽科技坚持以产品化的思路来理解智能语音客服机器人系统,将每一通电话录音当作一个产品,通过语音大数据分析技术找出技术上需要强化的地方以及产品设计上的瑕疵,并分析录音文件中的关键词、情绪、情感等。通过对这些特征进行统计以及专业化分析,找出客户行为特征、潜在需求、业务趋势等信息,及时掌握目前服务中存在的热点和机会,为营销分析与运营管理提供支撑,帮助业务部门制定有效的客户策略和营销,辅助确定趋势和机遇。

 

Ai中国,cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com