电话客服机器人的语音后端识别处理

    后端识别处理,具有对大词汇量、独立于说话人的健壮识别功能,简单来说,就是能够满足大词汇量,并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。
     
     
     
    1、语义置信度
    在语音识别领域一个很重要的因素是置信度输出,在限定词汇量的条件下,如果客户的提问或回答不**出限定的词汇,ASR识别后文本的正确率可以达到95%以上。但是,一旦问题**出限定的领域或者出现集外词,ASR的识别性能就会严重下降。因此,对ASR识别结果的可信度进行度量就显得非常重要,它可以降低集外词(OOV)带来的不利影响。
     
    采用的方法是利用统计语言模型衡量ASR识别所得到的整个句子的可信度。如果一个句子的词误识率比较低,构成这个句子的众多三元短语(W1W2,W3),会比较多的出现在统计语言模型Trigram中,如图9所示;反之,如果出现较多的识别错误,那么句子*部分的词W1和元短语(W1,W2)将出现在Unigram或Bigram中,很少有三元短语*Trigram,如图10所示;对于一个由若干词W1,W2,……,Wi,……,Wn构成的句子,可根据各个词及它所构成的短语在统计语言模型中出现的情况对其中每个词打分。出现在Trigram中的可信度高,因而得分较高,出现在Bigram或Unigram中的可信度低,因而得分较低。再在各个词得分的基础上得到整个句子的可信度得分。若得分低于某个门限,则认为句子中包含较多的识别错误或者集外词,可信度较低,应当被拒识。
     
    ASR识别后文本是由一个个词构成的词序列,其中某些词对于理解整个句子有着非常重要的作用,这就是所说的关键词。在这一步要做的就是提取出这些关键词,形成一个关键词串,作为下一步“问题理解”的输入,这种处理同时也是为了降低“问题理解”时的难度,如图11所示。可以把特定的对话节点看作一个问题域,针对该问题域设计关键词表,预先规定在这一问题域内的关键词。这个关键词表是ASR系统中相应问题域下的词汇表的子集,记录了每个关键字的汉字串,类标识和词序号等信息。在提取关键词时,只需要在句子中进行搜索,检测到出现在关键表的关键词,记录它们出现的位置和次序。比如一个句子“你好,我想问一下,我那个嗯,快递是不是寄错地址了?”,这里可以提取出关键汉字串“问一下”、“快递”、“寄错地址”。对于不包含关键词的句子,例如“啊,可以说给我打了,里头哭了。”,可把它视作无效或者错误的输入,给出相应的提示。
     
    以对话节点来分类语料,可较好的捕获用户说话的习惯和领域用语,某一节点场景下机器人与客户的对话可限定在某个问题域内进行。对句子进行准确的理解,并不需要考虑句子中的每个词,只需对几个蕴含关键概念的关键词汇进行理解就能把握句子的意义。关键词识别技术从语句中抽取用户关心的关键信息,能够降低对识别系统和环境噪声的要求。
     
    2、语料统计分析
     
    利用日志数据,学习用户的语言使用习惯,从日志中自动抽取语意标注数据和构建领域语言模型。以对话节点来分类语料,基于不同典型节点的语料进行词表抽取。
     
    针对每个问题域,需要确定有限大小的“词汇表”,并通过大量的训练语料训练出相应的基于词类的统计“语言模型”。“关键词表”可以从“词汇表”中提炼得到,它记录的是对于理解问题有实质作用的词汇及其相关信息。此外还要在“关键词表”的基础上形成“关键词类型组合模板库”,其中每个模板代表问题域内的一类具体问题,此模板库在“问题理解”过程中使用。
     
    以快递物流领域的对话语料为基础。对话过程是两个人通过电话以一问一答的形式进行的,电话一端代表客户,另一端是智能语音客服机器人,客户端说话方式完全是自由的和随意的。
     
    为了表述方便,我们首先给出如下定义:
     
    定义1 对话语句(Utterance) 从对话者一方开始讲话到讲完停下或被对方强行打断为止,所说的全部内容称作一个对话语句。
     
    定义2 对话子句(Dialog sentence) 一个对话语句中所包含的分句,称作对话子句。
     
    例如: 嗯|你好/我想查|一下/我|那个|快递|什么|时候|能|到/现在|还|没|送来
     
    这一段文字从开始到结束是一个对话语句,在这个对话语句中包含有4个对话子句(由“/”隔开),每一个子句中包含多个词(由“|”隔开)。
     
    其中,词典标注采用人工方式,语料标注采用机器自动标注与人工核对相结合的方法。当**次收集语料时,词典是不存在的,我们只需要对整理的语料进行分词,然后提取所有的词汇,并依据这些词汇建立相应的词典。词典一旦建立之后,当领域转移或扩展时,系统只需将新收集的语料中在词典中没有的所有新词提取出来,然后在人的辅助下决定是否将这些新词添加到词典中去。这样,对于应用领域接近或同一领域扩展时,只需要处理少数新的词汇即可,而避免了大量的重复工作。
     

    长沙朗深信息技术有限公司专注于智能电话机器人,呼叫中心中间件,跨界呼叫中心等, 欢迎致电 13973187797

  • 词条

    词条说明

  • 自动电话语音通知解决方案

    随着社会的进步,人工智能等科技技术的发展,自动语音通知作为一种新兴的通信方式,逐渐被各行业青睐。语音通知是以一种语音外呼的方式,将通知信息发布到需要了解信息的用户的终端手机,保证用户能接收到消息   自动语音通知可以广泛应用到各行业,例如: 1)**和医疗行业:用于应急通知、疫情防控、医疗咨询等; 2)企业和商家:用于宣传产品、促销活动、订单提醒等

  • 系统国产化改造

    随着信息技术的发展和信息的需求,信创国产化已经成为国家战略之一。从国资委下发79号文件,明确2027年底信息系统替换,国产化的目标后,所有行业,特别是政务行业兴起了一股国产化的热潮。在信创国产化中,系统国产化改造是至关重要的。 系统国产化改造主要是为了减少漏洞,提高国家信息。同时通过系统的改造希望能提高系统的性能和性,减少系统故障和维护成;提高系统的灵活性和可扩展性,是系统能适应新的业务

  • 呼叫中心系统中间件的作用是什么

    中间件是什么?中间件的作用简单来说就是试图通过屏蔽各种复杂的技术细节使技术问题简单化。 中间件屏蔽了底层操作系统的复杂性,使程序开发人员面对一个简单而统一的开发环境,减少程序设计的复杂性,将注意力集中在自己的业务上,不必再为程序在不同系统软件上的移植而重复工作,从而大大减少了技术上的负担。所以说中间件带给应用系统的,不只是开发的简便、开发周期的缩短,同时也减少了系统的维护、运行和管理的工

  • 呼叫中心系统的发展史

    呼叫中心较早起源与美国,并逐渐在各国流行开来。20世纪90年代引入中国,融合现代信息技术,被各企业利用,以较低的成本快速建立客户服务系统。随着时代的发张,企业对于呼叫中心的要求越来越高,呼叫中心系统开始迭代更新。  **代:人工热线电话系统**代呼叫中心是有交换机控制的人工热线,采用普通电话机或小交换机来实现客户电话的纯人工接听。常见的模式是由数人组成,在一个特定的地方用**设

联系方式 联系我时,请告知来自八方资源网!

公司名: 长沙朗深信息技术有限公司

联系人: 黄建军

电 话:

手 机: 13973187797

微 信: 13973187797

地 址: 湖南长沙岳麓区雷峰大道阳光晶城2栋1804

邮 编:

网 址: lioncen2018.b2b168.com

八方资源网提醒您:
1、本信息由八方资源网用户发布,八方资源网不介入任何交易过程,请自行甄别其真实性及合法性;
2、跟进信息之前,请仔细核验对方资质,所有预付定金或付款至个人账户的行为,均存在诈骗风险,请提高警惕!
    联系方式

公司名: 长沙朗深信息技术有限公司

联系人: 黄建军

手 机: 13973187797

电 话:

地 址: 湖南长沙岳麓区雷峰大道阳光晶城2栋1804

邮 编:

网 址: lioncen2018.b2b168.com

    相关企业
    商家产品系列
  • 产品推荐
  • 资讯推荐
关于八方 | 八方币 | 招商合作 | 网站地图 | 免费注册 | 一元广告 | 友情链接 | 联系我们 | 八方业务| 汇款方式 | 商务洽谈室 | 投诉举报
粤ICP备10089450号-8 - 经营许可证编号:粤B2-20130562 软件企业认定:深R-2013-2017 软件产品登记:深DGY-2013-3594
著作权登记:2013SR134025
Copyright © 2004 - 2025 b2b168.com All Rights Reserved