深圳易捷网络科技注册咨询网-jiujiuya.com.cn 返回首页

百度判断原创文章的方法

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2018-6-18 20:56:57

一、搜索引擎为什么要重视原创

1.1 采集泛滥化

来自百度的一项调查显示,超过80%的新闻和资讯等都在被人工转载或机器采集,从传统媒体的报纸到娱乐网站花边消息、从游戏攻略到产品评测,甚至高校图书馆发的催还通知都有站点在做机器采集。可以说,优质原创内容是被包围在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艰难又具有挑战性的事情。

1.2 提高搜索用户体验

数字化降低了传播成本,工具化降低了采集成本,机器采集行为混淆内容来源降低内容质量。采集过程中,出于无意或有意,导致采集网页内容残缺不全,格式错乱或附加垃圾等问题层出不穷,这已经严重影响了搜索结果的质量和用户体验。搜索引擎重视原创的根本原因是为了提高用户体验,这里讲的原创为优质原创内容。

1.3 鼓励原创作者和文章

转载和采集,分流了优质原创站点的流量,不再具属原创作者的名称,会直接影响到优质原创站长和作者的收益。长期看会影响原创者的积极性,不利于创新,不利于新的优质内容产生。鼓励优质原创,鼓励创新,给予原创站点和作者合理的流量,从而促进互联网内容的繁荣,理应是搜索引擎的一个重要任务。

二、采集很狡诈,识别原创很艰难

2.1 采集冒充原创,篡改关键信息

当前,大量的网站批量采集原创内容后,用人工或机器的方法,篡改作者、发布时间和来源等关键信息,冒充原创。此类冒充原创是需要搜索引擎识别出来予以适当调整的。

2.2 内容生成器,制造伪原创

利用自动文章生成器等工具,独创一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。

2.3 网页差异化,结构化信息提取困难

不同的站点结构化差异比较大,html标签的含义和分布也不同,因此提取关键信息如标题、作者和时间的难易程度差别也比较大。做到既提得全,又提得准,还要最及时,在当前的中文互联网规模下实属不易,这部分将需要搜索引擎与站长配合好才会更顺畅的运行,站长们如果用更清晰的结构告知搜索引擎网页的布局,将使搜索引擎高效地提取原创相关的信息。

三、百度识别原创之路如何走?

3.1 成立原创项目组,打持久战

面对挑战,为了提高搜索引擎用户体验、为了使优质原创者原创网站得到应有的收益、为了推动中文互联网的前进,我们抽调大量人员组成原创项目组:技术、产品、运营、法务等等,这不是临时组织不是1个月2个月的项目,我们做好了打持久战的准备。

3.2 原创识别起源算法

互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。

首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;

其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;

最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。

目前,通过我们的实验以及真实线上数据,起源算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待起源去解决,我们坚定的走着。

3.3 原创星火计划

我们一直致力于原创内容的识别和排序算法调整,但在当前互联网环境下,快速识别原创解决原创问题确实面临着很大的挑战,计算数据规模庞大,面对的采集方式层出不穷,不同站点的建站方式和模版差异巨大,内容提取复杂等等问题。这些因素都会影响原创算法识别,甚至导致判断出错。这时候就需要百度和站长共同努力来维护互联网的生态环境,站长推荐原创内容,搜索引擎通过一定的判断后优待原创内容,共同推进生态的改善,鼓励原创,这就是原创星火计划,旨在快速解决当前面临的严重问题。另外,站长对原创内容的推荐,将应用于起源算法,进而帮助百度发现算法的不足,不断改进,用更加智能的识别算法自动识别原创内容。

目前,原创星火计划也取得了初步的效果,一期对部分重点原创新闻站点的原创内容在百度搜索结果中给予了原创标记、作者展示等等,并且在排序及流量上也取得了合理的提升。

最后,原创是生态问题,需要长期的改善,我们将持续投入,与站长携手推动互联网生态的进步;原创是环境问题,需要大家来共同维护,站长们多做原创,多推荐原创,百度将持续努力改进排序算法,鼓励原创内容,为原创作者、原创站点提供合理的排序和流量。

更多网络知识及相关网络服务请QQ咨询深圳网站建设公司QQ:2361277551

相关行业资讯

1、企业做网站成本怎么越来越高
2、这些是企业做网络推广需要考虑的问题
3、个人网站怎样找到高质量的友情链接
4、外贸营销网站建设的要点
5、企业进行网站设计的思路
6、5个实用的增加网站流量的方法,你学会了吗
7、站长要搞清楚:搜索的人是谁 谁在搜索呢
8、2014年各种编程语言的薪资和市场需求
9、网站优化技巧之优化目的
10、网站建设应该怎么样考虑主页的设计?
11、做手机网站有什么用
12、seo优化中什么样的词可以加内链?
13、如何判断关键词竞争度规则
14、SEO列表:社交媒体营销
15、推广优化关键词从商业角度看的选择策略
16、哪些代码知识是需要seo优化人员必须了解的
17、SEO从零开始第10章:真技术不如真口才
18、新人站长做站系列之如何选购合适的域名
19、SEO优化排名和哪些因素有必然的关系
20、做好网站弹窗设计有哪些技巧
21、一个虚拟主机可以建几个网站
22、互联网的发展导致推广优化作用将逐渐减弱
23、网站优化时要注意错误的优化方法
24、中小企业网络推广需要2.0
25、手机网站建设色调的搭配在网页设计中起到至关重要的作用
26、网站建设重在规划其次才是设计开发
27、如何做好关键字优化难易程度分析
28、面向对象方法学
29、剖析行业网站建设的四大原则
30、网站设计的目的是什么
31、 SEO优化的内部链接的八大表现形式!
32、SEO不可忽视的三大技巧!你知道吗
33、SEO优化如何帮助企业网站运营成功
34、网络推广一定要了解的几大误区!
35、相似度降低手法以避免影响优化
36、网站内链SEO优化的4个技巧
37、营销型网站和普通网站价格报价差异
38、如何使用google网站站长工具来提升你的网站流量
39、百度搜索悄悄上线极光算法鼓励原创优质内容
40、网站设计对于企业发展的重要性有哪些
41、网站的Flash和AJAX要注意的事项
42、开发网站需要什么技术
43、怎么创建网站老站长教你创建个人网站,简单易学(只有三步)
44、网站内链建设的技巧和注意事项分析
45、怎样选择专业的网站建设公司
46、新手如何面对待已经泛滥的推广优化文章
47、选择关键词的准备工作 分析关键词的联系性
48、为什么网站需求进行SEO优化
49、 实例分析网站结构优化的注意事项_网站运营_深圳网络公司
50、深圳网站建设|怎么选择深圳网站建设有实力的公司

相关视频推荐

自动化行业网站制作焊锡机/点胶机/螺丝机网站
企业网站制作新模式全部仅需800元/年
如何提高企叫网站打开速度
公司网站到期了该怎小续费
企业为什么必须要做一网站
企业网站的导航栏一般要规划哪些栏目
国际物流FBA物流网站建设深圳易捷网站公司公司
银制品金银器网站建设深圳易捷网站公司
包装印刷行业网站设计
膜结构公司网站设计
工商财务公司网站设计
购买一个域名需要多少钱
企业网站建设云虚拟主机需要多少钱
财务公言的网站怎么做才能显示在搜索引擎的首页
网站建设一站式服务
深圳网站建设公司网站排行榜
深圳市易捷网络科技有限公司版权所有     粤ICP备2022153140号
best smoke alarms australia |  vape detectors