如何评价智能助手的好坏( 四 )


query需求判断之后,我们需要判断结果是否满足需求 。首先,我们评判结果是否可以提供用户想要找的信息,即从相关性上来说是否满足了需求 。第二点,我们评判结果是否满足所关注的维度,然后根据满足程度对应档位划分规则,进行标注打分 。
5. 评测报告
评测报告需要包含三大要素 。首先,我们需要考虑报告的阅读对象 。比如评测报告是给上级做汇报的还是针对产品经理和算法部门的,根据不同的阅读对象,报告的呈现内容不同 。比如根据阅读对象,评测数据中详细的统计信息和提炼的问题,也是不一样的 。但不管阅读对象是谁,我们必须服从One-page原则,报告的首页一定要把最重要的内容全部展示出来 。最重要的内容有:主要的指标、重要统计结论、重点问题、评测的背景信息等 。评测的背景信息有评测的目的、评测的方法、评测的维度、评测的指标、对应的计算公式等 。
03
评测通用流程
首先,需要了解评测的具体需求,沟通需求时应该拉上相关的业务方负责人来沟通需求,之后评测方根据需求内容输出评测方案初稿 。初稿包括前述评测背景中所应该包含的所有内容 。初稿形成后,需要再一次拉上相关业务方进行讨论,形成终稿 。之后,还需要做数据和环境的准备,然后进行评测试标 。试标没有问题才能开始正式评测,否则需要根据问题点回退到相应环节重新讨论,有规则不合理或者未覆盖也需要予以修正 。正式评测后需要进行评测质检,质检达标后进行数据统计和报告输出 。到这里是评测的结束点,也是产品优化的起点,因为评测的主要目的是为了提升用户体验,评测中发现的问题点和需求点,需要进行不断的优化迭代 。
04
小布助手评测体系
接下来,详细介绍一下OPPO小布助手的评测体系 。先介绍一下小布:
小布助手是OPPO智能手机和IoT设备上内置的AI助手,是OPPO面向未来5G+万物互融时代的思考和具体战略布局 。它具备“无需安装,唤醒即用”的覆盖能力,实现“解放双手,高效操作”的新形态人机互动;拥有丰富的唤醒方式,可轻松实现内容的语音直达服务 。目前,小布助手可以支持的技能有上百种,包括比如:生活服务、出行服务、信息查询、系统操作和娱乐服务等 。小布助手的能力仍在不断发展,针对这些能力,我们需要制定完整的评测体系,用于评估对用户体验的影响,并不断优化体验 。
整体的评测框架是围绕语音交互系统的四个核心瓶颈来建设的 。目前评测涉及的产品包括手机、手表、电视等 。随着OPPO互融布局的展开,评测也会涉及到越来越多的产品 。
针对“听清”的评测环节,一是需要评估出线上音频质量分布情况,二是要评测ASR识别率 。识别率评测分为两种,一种是在语音实验室的端到端评测,另一种是接口的评测 。特别是接口评测,根据不同的评测需求,会采用不同的方案 。
小布助手现在还支持粤语模式,所以也会开展针对性评测,保证粤语交互效果 。
针对“听得懂,答得好”的环节,我们需要进行自然语言处理相关的评测以及资源引入评测 。
评测包括满意度评测、对比评测、用户session满意度评测等 。满意度评测,主要评估用户首轮query对应结果的质量 。对比评测,主要是评估和小布助手有相同定位的友商产品与小布的差异点 。用户session满意度评测,评估用户整个交互过程的满足程度,会把交互全链路考虑进去 。还有两类评测,意图的召回率和准确率评测以及上线前的GSB评测 。召准率,行业通用,就不多说了,GSB评测是针对技能在算法、资源、产品形态等等上线前和线上版本的效果对比进行的评测 。上线前提是,评测结果正向收益大于负向收益,否则改进后的技能专项模型是不能上线的 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: