如何评价智能助手的好坏( 六 )


A:我们的评测体系是覆盖了所有核心瓶颈设计到的维度,但是当你做评测的时候,就要通过待评测的模型和评测目的来选取不同的评测方法 。比如现在要做闹钟意图模型的优化评测,只需要评测闹钟模型输出的意图和用户真实需求是否有差异,它的模型优化效果是否比线上版本好 。针对评测维度,有的维度是搜索行业单独关注的,有的维度是语音助手行业单独关注的,有的维度是所有行业都会关注的,如相关性 。评测的时候需要根据评测目的选取不同的维度,比如现在要关注闲聊的多样性,那么需要在结果的相关性得到保证的情况下,再来看结果的多样性是不是满足需求,这时候评测关注的维度是相关性和多样性,并不需要时效性 。如果现在评测的是信息查询,那么重点关注的维度应该是相关性和时效性 。根据不同的评测目的以及评测产品,我们所关注的维度有所不同 。
Q:ASR方言评测是不是需要招聘专业的方言人员?TTS的MOS打分是长期评测任务还是根据算法需求来制定的?同一条音频评测时需要几个人一起打分?
A:方言评测肯定是需要懂这个方言的评测人员才能完成的 。TTS的MOS打分评测是根据摸底和算法需求综合来进行的 。比如算法部门有优化模型需要上线,那么我们就需要开展评测 。如果他们没有新模型上线需求,那么我们会定期(如两个月或一个季度)进行线上的摸底评测 。打分的时候,需要至少五个人对同一条音频进行打分 。
Q:小布助手评测体系中最重要的指标是哪几项?
A:我们没有固定的核心指标 。比如ASR的核心指标是字错率和句错率;TTS的核心指标是MOS得分;NLP的核心指标是用户满意度,因为它不管前面用户意图识别是不是准确,当资源引入质量较差或者相关性不好,NLP模块给出的结果仍然是不佳的 。
Q:小布助手的丰富性维度如何测评?
A:首先,保证丰富性的同时我们应该权衡用户的需求,所以主观性比较强 。我们需要保证回答不能过于简短 。与此同时,我们还关注小布助手是否“言之有物”,回答不能阐述一个虚无的概念,而是一定要涉及某一具体事务,这具有一定的主观性,所以在制定规则的时候不仅要考虑到回答的长度,还要考虑“言之有物”,进而判断回答的丰富程度 。
Q:用户口音问题导致语音识别率降低应该如何解决?目前支持自动识别用户在说哪一种方言吗?唤醒词支持方言吗?
A:语音评测的时候不能关注用户所说的是带了口音的普通话还是标准普通话 。从用户的满足程度来看,我们应该正确识别出带口音的用户的真实需求 。所以我们的评测标准是一样的,不能因为用户带口音而放宽标准 。但是当评测显示出问题之后,我们会打上不同的标签,来表示这是因为用户口音而导致的错误 。同理,当存在环境噪音时,出现的识别错误我们也会打上相应的标签 。针对后一个问题,我们目前不支持自动识别方言,但是我们有一个开关来控制小布助手的方言识别功能,唤醒词支持方言的功能也同样需要打开开关后才能支持 。
今天的分享就到这里,谢谢大家 。
在文末分享、点赞、在看,给个3连击呗~
分享嘉宾:
分享嘉宾:李二敏 OPPO
编辑整理:吴祺尧 加州大学
出品平台:DataFunTalk


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: