中金在线 > 行业 > 科技

|科技

快商通发明单通道电话人声分离技术,拯救呼叫中心单通道语音数据

中金在线 佚名

|
  自声纹识别技术被推广应用以来,声纹库建设的数据来源,一直是从业者们头疼的难题。
  对于金融、保险、证券、市场调研、电商等拥有呼叫中心,并会产生大量语音数据的领域来说,建设声纹库本不是难事,但受历史技术水平的限制,这些领域所存储的历时语音数据来源大多为单通道,客服与客户的声音共存在同一段音频之中,难以分割,无法发挥数据价值。
  最近,快商通Kriston AI Lab发明了一种基于深度学习的单通道电话语音快速人声分离技术(简称“单通道电话人声分离”),破解了复杂场景下的人声分离的难题,将银行、保险、市场调研等行业的呼叫中心历史语音数据变废为宝,大大降低了声纹数据库的建设门槛。
无需人工干预的电话信道人声分离
  呼叫中心的电话语音,同时存在客服和客户两种不同的声源,如何分辨出特定人物的声音,这对于我们人类来说十分简单,但对于计算机来说,要把一个音频分割成多个不同的语音来源,却要面临很多困难。
  尤其是多人声音重叠部分,分离效果差,且需要采集大量的相关音频进行单独优化,无疑是一种事倍功半的行为。
  Kriston AI Lab提出的这种电话信道人声分离技术,以深度学习的方法实现数据模型训练 , 无需人工干预,便可以将单通道电话信道音频中两个不同说话人的音频进行拆分 ,分别保存,实现端到端的电话信道人声分离。
  电话信道人声分离是如何“炼”成的?
  人声分离分离技术以深度学习技术为基础 , 构建多层RNN循环神经网络。
  1、利用现实生活中电话信道双通道音频作为训练的数据集 , 将电话信道双通道音频合并为融合左通道客服音频和右通道客户音频的单通道音频作为整个模型训练的输入音频,将双通道音频直接读取的左通道音频和右通道音频作为网络训练的标签音频;
加载全文
加载更多

精彩博文
×