如何评价智能助手的好坏( 三 )

第五个维度是时效性，要求返回的结果是一个及时的结果，特别对于有时效性需求的query，例如新闻、更新速度快的产品、周期性事件等很重要。第六个维度是排序，主要是在搜索评测中关注的维度。由于搜索结果是一个自上而下浏览的产品形态，质量越高的结果排序应该更加靠前。
第六个维度是多样性，在搜索和语音助手中都会关注，比如一条query最好返回满足不同需求的结果。比如query“陈情令”，多样性结果返回应包含剧情介绍、贴吧讨论等。在语音助手中，多样性指的是语音助手会返回不同有趣的答复。
第七个维度是权威性，在搜索引擎中体现得更多，搜索结果来自于官方网站或者知名网站，特别是一些询问医疗健康、法律法规方面的问题，那么query的结果最好能给出权威性高的网站，其结果肯定比个人撰写的结果要好。
第八个维度是便捷性，是指找到目标信息需要花费的时间和成本，是搜索和语音助手中都会关注的维度。
第九个维度是丰富程度，主要关注评测结果内容的丰富情况。
前提包含三个方面：
首先，制定评测规则的前要了解、熟悉产品。比如小布助手，在制定小布助手相关的评测方案和规则时，我首先要知道小布有多少技能，每个技能的呈现形式是什么样的，和小布助手有同样定位的竞品有哪些，它们有什么样的技能，它们的呈现形式是什么样的。这些都是在制定评测方案和规则前需要了解的。
其次我们还需要了解产品的用户层，即用户画像。因为不同用户对于一个query的需求有可能也是不一样的，或者在不同场景下，同一个query需求也会有很大的不同。
最后是了解评测目的，为什么要做评测，希望达到什么样的预期，做了什么样的优化或策略。
评测的思考方向有：

评测维度，即确定评测需要关注的维度。
档位划分，行业常用的档位有两档、三挡、四挡、五档等，
档位的定义，即给出不同档位的情况的详细说明，使得评测标注人员有参考依据，保证即使不是同一个人做的评测，其评测结果也不会有很大的变化，得出的结论能基本保持一致。
模糊地带处理原则，我们一定要明确基线和分界线，对于模糊地带也应尽量降低其带来对整体结论的影响。例如在搜索场景下，我们可以通过用户的点击数据来确定界限，而像语音助手，我们可以通过用户的后续行为分析以及用户调研来确定用户query真实需求。

4. 评测标注打分
评测标注打分主要分为两部分：用户query需求判断和结果需求满足判断。query需求判断有四种方法。
第一种是直接理解法，适用于描述得比较清楚的query，我们直接可以按照query的字面意思理解，但是不能遗漏query的限定元素，比如“陈情令的分集剧情介绍”中“分集”的限定元素。
第二种是日常经验法，这源于大部分用户的需求，和日常生活比较贴近，我们可以根据常识来判断query的需求。从这里也可以看出，选拔评测标注人员时，需要挑选知识面比较广且评测经验比较丰富的候选人，这样可以提高评测效率和质量。
第三种是深入思考法，有一些query由于输入方法比较复杂或者query描述不清楚，我们无法从字面意思直接理解用户的真实需求，就需要进行深入的思考和分析。
最后一种方法是搜索一下法，即深入思考之后还是无法理解用户需求，那么不管是做搜索评测还是语音助手评测，可以使用头部搜索引擎去观察多家引擎给出的结果。通过对比之后，大概就可以对query有一个比较准确的理解。

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：