今日头条让人上瘾的数据挖掘( 三 )

  1. 异常检测(异常/变化/偏差检测):识别不寻常的数据记录,错误数据需要进一步调查;
  2. 关联规则学习(依赖建模):搜索变量之间的关系 。例如:一个超市可能会收集顾客购买习惯的数据,运用关联规则学习,超市可以确定哪些产品经常一起买,并利用这些信息帮助营销——这有时被称为市场购物篮分析;
  3. 聚类:是在未知数据的结构下,发现数据的类别与结构;
  4. 分类 :是对新的数据推广已知的结构的任务 。例如:一个电子邮件程序可能试图将一个电子邮件分类为“合法的”或“垃圾邮件”;
  5. 回归:试图找到能够以最小误差对该数据建模的函数;
  6. 汇总(Automatic summarization):供了一个更紧凑的数据集表示,包括生成可视化和报表 。
3)结果验证数据挖掘的价值一般带着一定的目的,而这目的是否得到实现一般可以通过结果验证来实现 。验证是指“通过供客观证据对规定要求已得到满足的认定”,而这个“认定”活动的策划、实施和完成,与“规定要求”的内容紧密相关 。数据挖掘过程中的数据验证的“规定要求”的设定,往往与数据挖掘要达到的基本目标、过程目标和最终目标有关 。验证的结果可能是“规定要求”得到完全满足或者完全没有得到满足,以及其他介于两者之间的满足程度的状况 。验证可以由数据挖掘的人自己完成,也可以通过其他人参与或完全通过他人的项目,以与数据挖掘者毫无关联的方式进行验证 。一般验证过程中,数据挖掘者是不可能不参与的,但对于认定过程中的客观证据的收集、认定的评估等过程如果通过与验证出者无关的人来实现,往往更具有客观性 。通过结果验证,数据挖掘者可以得到对自己所挖掘的数据价值高低的评估 。数据挖掘的方法包括监督式学习、非监督式学习、半监督学习、增强学习 。监督式学习包括:分类、估计、预测 。非监督式学习包括:聚类,关联规则分析 。6. 例子数据挖掘在零售行业中的应用:零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时资料探勘系统就在此客户和真丝衬衣之间建立关联 。销售部门就会看到此信息,直接发送真丝衬衣的当前行情,以及所有关于真丝衬衫的资料发给该客户 。这样零售商店通过资料探勘系统就发现了以前未知的关于客户的新信息,并且扩大经营范围 。7. 数据捕捞通常作为与资料仓库和分析相关的技术,资料探勘处于它们的中间 。然而有时还会出现十分可笑的应用,例如发掘出不存在但看起来振奋人心的模式(特别的因果关系),这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关联,在统计学文献里通常被戏称为“资料挖泥”(Data dredging, data fishing, or data snooping) 。资料探勘意味著扫瞄可能存在任何关系的资料,然后筛选出符合的模式,(也叫“过度匹配模式”) 。大量的数据集中总会有碰巧或特定的资料,有著“令人振奋的关系” 。因此,一些结论看上去十分令人怀疑 。尽管如此,一些探索性资料分析 还是需要应用统计分析寻找资料,所以好的统计方法和数据资料的界限并不是很清晰 。危险是出现根本不存在的关联性,投资分析家似乎最容易犯这种错误 。在一本叫做《顾客的游艇在哪里?》的书中写道:


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: