如何评价智能助手的好坏( 二 )

② 语音助手行业常用评测方式
语音助手是一个语音交互系统,它有四大核心瓶颈:唤不醒、听不清、听不懂和说不清 。针对这四个瓶颈,目前行业内有一些比较通用的评测方法 。

  • 唤不醒,开展唤醒评测,一般是在语音实验室内开展的,输出指标是不同场景下的唤醒率以及误唤醒率 。
  • 听不清,开展ASR识别率评测,输出指标为字错率和句错率 。它可以在语音实验室开展,优点是可以按照不同场景进行评测,缺点是不能反映真实的线上用户体验,因为评测集是通过录音室采集得到的,而不是真实线上用户的数据;它还可以通过线上接口进行评测,优点是可以使用线上的真实用户的音频数据来检验识别结果,而且评测数据量大 。
  • 听不懂,开展意图准召评测,和搜索一样,主要目的是对比人工评判和实际算法的预测效果,输出的指标是召回率、准确率以及F值 。听不懂,还开展满意度评测,评测结果对用户的满足程度,会考虑内容是否正确、丰富,交互是否更人性化等等 。
  • 说不清,开展TTS评测,评测时会考虑语音合成的自然度、清晰度、拟人度等,输出的指标是MOS得分 。
2. 数据选取

不管是搜索评测还是语音助手评测,抽样方法都可以分为四类 。
首先是随机抽样,包括用户日志随机和用户随机 。用户日志包括文本日志和音频日志,比如语音助手主要的数据就为音频日志 。我们从这些日志中随机选取合适的评测数量,这种方法的优点是能完全反应用户需求的真实分布,缺点是无法较好地发现长尾问题和局部问题 。
第二种是去重抽样,将PV全部转换为1,再进行随机抽取日志的方法,这种抽样方法一定要说明情况,避免以偏概全 。去重抽样的优点是能更好地覆盖长尾查询,缺点是数据分布与线上用户的真实需求分布不一致 。
第三种抽样方法是分层抽样,根据用户日志分为高频、中频和长尾日志,按照比例分别进行抽样 。具体高频、中频、长尾的定义与产品有很大关系,并不能说PV超过一个值就是高频日志 。它的优点是能够对各个分段进行有针对性的分析,比如产品经理想要看线上整体效果就使用随机抽样,而他想要重点优化高频交互的效果,那么我们就要分层抽样 。但它的缺点是数据分布与线上用户的真实需求分布不一致 。
第四种抽样方法是垂直抽样 。在用户日志中,我们会针对一些特性进行局部抽样 。我们可以按领域进行抽样,如想要对闲聊进行评测,我们抽取的query就是闲聊领域的query 。垂直抽样的优点是能更好地覆盖和发现局部类型的问题,缺点是无法从整体上说明问题 。
3. 评测维度和规则选取
根据产品的定位以及评测的目的,我们可以选取不同的评测维度 。
第一个维度:返回的结果不能有违反国家法律法规、影响用户情绪的虚假错误信息,比如黄赌毒等 。
第二个维度:垃圾、作弊、低质量信息也是我们重点关注的一个维度 。垃圾包括死链等,作弊比如含虚假链接或者堆砌内容等,低质量指的是内容质量不高 。这些情况在搜索引擎和语音助手中都较为常见 。
第三个维度:意图理解就是预判用户query的真实需求 。我们必须理解用户的意图才能给出相关的、高质量的内容 。如果意图理解出现了较大偏差,给出的结果就算内容质量再好,也会严重影响用户体验 。
第四个维度是相关性,它是一个好的结果最基本也最重要的要求 。主要是指用户需求和给出的结果是不是说的是一回儿事 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: