如何评价智能助手的好坏( 五 )


资源引入评测主要是观察引入资源的效果 。根据不同的资源,评测所关注的维度也是不一样的,这里我就不再一一赘述了 。
评测体系的最后一部分是“说得清,说得美”,它用来评估小布助手在各个音色上存在的问题点及与竞品存在的差异点 。除了行业通用的MOS评测,根据评测需求和效率,也会采用推荐式评测和只关注对错的客观评测方式 。
05
总结与展望
任何一个评测体系都不是一成不变的,它会随着用户需求、产品迭代进行方案的升级,用于发现新问题、指导优化思路 。
比如随着语音助手从单设备到多终端、单指令到跨服务、单场景到跨场景的发展,小布助手评测体系一定也会持续升级,进一步覆盖超级终端的设备接入和管理能力评测,从语音识别到视觉识别、环境感知等效果能力评估、学习能力评估等 。
06
精彩问答
Q:ASR和TTS的评测指标的定义和标准是什么?
A:ASR的评测指标主要是字错率和句错率 。语音转成的文字和人工识别的文字进行比较,来计算字错率和句错率 。针对接口类如多环境、多噪音、多性别、多年龄评测,我们随机抽取线上用户数据;而语音实验室评测的采集数据会针对性地采集一定噪音环境下的数据,如车载环境、高速公路环境、办公室环境等 。实验室会综合人声的采集数据和噪声数据进行语音识别测评 。TTS的评测指标是MOS得分,需要考虑自然度、清晰度、准确率等因素 。目前档位分为五档,业内针对MOS打分的规则是通用的,有兴趣的同学可以去网上搜索详细的档位划分规则 。
Q:针对严重的长尾问题,采用哪种抽样方法更能改善用户体验?评测的边界case怎么处理?例如误唤醒,情绪识别有时很难区分 。
A:长尾问题可以使用分层抽样的方法解决,因为随机抽样抽取的样本一定偏向PV较高的,无法覆盖长尾样本 。抽样时从某个频次以下的样本池中进行抽样,就可以得到长尾类数据 。边界case,如果有客观数据支持最好,如果没有尽量考虑结果的多样性,使模糊的用户query不要影响整体结论 。情绪识别有时会遇到难以区别的情况,比如伤心和失望,但是我们会定义具体的规则,尽量区分两种情绪 。
Q:相关性和时效性评测都是由人工进行测评的吗?
A:是的 。分享中所涉及的都是人工评测,所以我们一定要在制定评测规则的时候就把它阐述清楚,减少人为主观因素的影响 。比如相关性,通过指定详细的规则来定义强相关、弱相关和不相关,同时会使用case进行举例说明,帮助评测人员进行理解 。时效性的评测可以使用“搜索一下”的方法,在搜索引擎中观察query对应的最新结果是什么,当然我们也会去看竞品的结果,进行综合判断 。
Q:搜索评测中,准召指标会做全链路的吗?满意度和PI是不是都是针对全链路的最终结果?PI评测时是对各维度设计评测规则还是使用其他方法进行设计?
A:搜索评测中的准召一般都是按照垂域来进行的,全链路的做法比较少见 。满意度是根据定义来进行测评的,比如只关心Top 3的指标,那么满意度就和前三条结果有关,最后得出对应的打分结果;如果关心Top10的指标,那么就要把前十条结果都考虑在内 。PI也是遵循一样的原则,目前业内通常选取前三条或者前四条 。PI会将前三条或者前四条结果分别进行打分,然后按照计算公式使用权重计算它们的综合得分 。
Q:我们如何从这么多评测指标中评价哪个模型是最优的?所有维度都需要进行评测吗?如果不是,我们应该如何选择需要的评测维度?


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: