?:百度怎么判断文章内容是原创还是伪原创

?:百度怎么判断文章内容是原创还是伪原创
在搜索引擎工作原理中,可分为网页抓取、分析入库、查询检索三步 。其中在分析入库这块,百度有一系列的相关算法判断文章是原创还是伪原创 。对于伪原创或采集的网页内容,在百度计算质量初始权值时是很低的,会给予原创文章较高的扶持 。
我们先来看百度官方对其原创、伪原创的定义:
1、高质量原创内容:百度把原创定义为花费一定成本、大量经验积累取后形成的文章 。
2、伪原创:采集内容后对部分关键词进行批量修改,企图让百度认为这些都是独特内容,然而内容已经是面目全非,甚至无法读通——这也是百度不喜欢的,风险很大 。还是刚才说的观点,百度不排斥站点采集内容,关键是如何应用采集的内容和数据,如何整合成用户和搜索引擎都需要的内容才是站长应该考虑的内容 。
百度如何分辨文章内容是原创还是伪原创
一、基于关键词取的重复页面检测算法
基本原理是:有一个大的网页集合P,里面包含了很多网页为pi 。每个网页pi都分别取关键词tj,形成向量Wi=(W1,W2,…Wj) 。其中Wj的影响因素有两个,一是关键词j在网页中出现的频率,二是网页集合P中出现关键词j的次数的倒数 。而在判断两个网页是否为重复页面时,只需要判断表示两个页面的向量Wi和Wj的夹角的大小即可 。夹角越小,两个页面的重复度越高 。
二、基于全文分段匹配的重复页面检测算法
这类算法采用的是一种对全文分段签名的方法 。这种算法把一篇网页按一定的原则分成m段,然后对每一段进行签名(即计算指纹),于是每一篇文档就可以用m个签名后的指纹来表示 。对于任意两篇文档,当它们的m个签名中有t个相同时(t是系统定义的阈值),则认为它们是互为重复内容网页 。
三、基于模板消噪的重复内容检测算法
由于大量的近似镜像网页并不是对原始网页的简单拷贝,而是将要转载的内容放在新的模板中再供服务 。因此模板中的内容就会干扰算法程序对近似镜像网页的判断,从而导致错误的检测结果 。基于模板噪音消除的重复内容检测就是先对网页进行净化,去掉网页的模板噪音内容,进而取出网页的正文,然后再结合其他重复内容检测算法对网页的正文进行消重 。
并不能以收录来衡量内容质量
百度对网页内容价值的判断不是停留在我们自以为的“原创”上面,也不是以收录来衡量 。在大部分人的认知中,原创内容就应该被收录,伪原创采集就该没排名 。若是单从内容的稀缺性这一维度去比拼,原创文章自然是要战胜伪原创的采集的 。但是影响一篇网页的收录除了该篇网页质量外,还受站点整体性的权值影响,实际上大部分因素还是取决于后者 。
通常内容质量高的站点收录率较高,但并不代表收录量多或秒收的站点内容质量好 。您可能也见过些采集/伪原创比原创的站点排名好,收录好,但是我们不去片面的分析,以偏概全 。可以尝试看看它们内容更新频率、站点整体量级、域名年龄等,这些也是重要因素 。一个网站的排名收录,都是由许多综合因素一起迭代产生的最终结果 。



    以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

    「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: