如何评价智能助手的好坏( 二 )

② 语音助手行业常用评测方式
语音助手是一个语音交互系统，它有四大核心瓶颈：唤不醒、听不清、听不懂和说不清。针对这四个瓶颈，目前行业内有一些比较通用的评测方法。

唤不醒，开展唤醒评测，一般是在语音实验室内开展的，输出指标是不同场景下的唤醒率以及误唤醒率。
听不清，开展ASR识别率评测，输出指标为字错率和句错率。它可以在语音实验室开展，优点是可以按照不同场景进行评测，缺点是不能反映真实的线上用户体验，因为评测集是通过录音室采集得到的，而不是真实线上用户的数据；它还可以通过线上接口进行评测，优点是可以使用线上的真实用户的音频数据来检验识别结果，而且评测数据量大。
听不懂，开展意图准召评测，和搜索一样，主要目的是对比人工评判和实际算法的预测效果，输出的指标是召回率、准确率以及F值。听不懂，还开展满意度评测，评测结果对用户的满足程度，会考虑内容是否正确、丰富，交互是否更人性化等等。
说不清，开展TTS评测，评测时会考虑语音合成的自然度、清晰度、拟人度等，输出的指标是MOS得分。

2. 数据选取

不管是搜索评测还是语音助手评测，抽样方法都可以分为四类。
首先是随机抽样，包括用户日志随机和用户随机。用户日志包括文本日志和音频日志，比如语音助手主要的数据就为音频日志。我们从这些日志中随机选取合适的评测数量，这种方法的优点是能完全反应用户需求的真实分布，缺点是无法较好地发现长尾问题和局部问题。
第二种是去重抽样，将PV全部转换为1，再进行随机抽取日志的方法，这种抽样方法一定要说明情况，避免以偏概全。去重抽样的优点是能更好地覆盖长尾查询，缺点是数据分布与线上用户的真实需求分布不一致。
第三种抽样方法是分层抽样，根据用户日志分为高频、中频和长尾日志，按照比例分别进行抽样。具体高频、中频、长尾的定义与产品有很大关系，并不能说PV超过一个值就是高频日志。它的优点是能够对各个分段进行有针对性的分析，比如产品经理想要看线上整体效果就使用随机抽样，而他想要重点优化高频交互的效果，那么我们就要分层抽样。但它的缺点是数据分布与线上用户的真实需求分布不一致。
第四种抽样方法是垂直抽样。在用户日志中，我们会针对一些特性进行局部抽样。我们可以按领域进行抽样，如想要对闲聊进行评测，我们抽取的query就是闲聊领域的query 。垂直抽样的优点是能更好地覆盖和发现局部类型的问题，缺点是无法从整体上说明问题。
3. 评测维度和规则选取
根据产品的定位以及评测的目的，我们可以选取不同的评测维度。
第一个维度：返回的结果不能有违反国家法律法规、影响用户情绪的虚假错误信息，比如黄赌毒等。
第二个维度：垃圾、作弊、低质量信息也是我们重点关注的一个维度。垃圾包括死链等，作弊比如含虚假链接或者堆砌内容等，低质量指的是内容质量不高。这些情况在搜索引擎和语音助手中都较为常见。
第三个维度：意图理解就是预判用户query的真实需求。我们必须理解用户的意图才能给出相关的、高质量的内容。如果意图理解出现了较大偏差，给出的结果就算内容质量再好，也会严重影响用户体验。
第四个维度是相关性，它是一个好的结果最基本也最重要的要求。主要是指用户需求和给出的结果是不是说的是一回儿事。

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：