深圳易捷网络科技注册咨询网-jiujiuya.com.cn 返回首页

百度收录时判断网页价值的标准

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2024/12/22

搜索引擎每天都处理这数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满 足了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样 判断页面的价值呢?本文将逐一回答这些问题。

搜索引擎判断页面价值图

一、 什么页面价值。

所谓的页面价值就是某个页面满足了某一用户的特定需求,体现了这个页面对用户的价值。那么对搜索引擎而言,价值体现就在于所有可能会对用户产生价值 的页面,于是将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们称这种价值为检索价值 。只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。

一个页面是否有检索价值,应该取决于两点:

(1) 是否能解决某个特定的需求(价值)

(2) 是否可以通过某个常规的搜索方式获得该信息(检索)

没有检索价值的页面是不是对搜索引擎就没有价值了呢?当然答案是否定的。索引只是搜索引擎的 一个环节,对于其他环节而言,没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一 些页面,本身没有检索价值,但通过这些页面的抓取和分析,能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息,从而节省更多的流量进行更加有效的 抓取。

考虑到这种价值可以算作一种间接的检索价值,最终还是立足于索引价值的,在本文中就不再展开论述,我们只关注检索价值这一根本问题。下文中提到的页面价值特指页面的检索价值。

二、 为什么要研究页面价值

首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。

第二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下, 抓取或页面更新就需要有一个先后顺序,而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面 的应用。

第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为死链,或者被黑。对于这些页面,好的搜索引擎会在第一时 间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的好页面。对于另一些页面,它不仅具有很高的检索价值,而且有很 强的时效性,能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开销,以多快的速 度收录和以多短的周期更新索引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。

最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。

可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。

三、 怎么判断一个页面的价值

页面检索价值,受到页面质量的影响。相似的页面,对于满足用户需求来说,往往会有很大差异,比如资源下载速度,页面的布局,广告的多寡。这类差异,姑且称之为页面质量。

有些页面具有明显的公众话题性质,且这些资源往往在刚刚产生时有非常高的关注度,随着时间的推移热度显著下降,有着新闻的特征。典型的像各种门事件,地震、火灾等大型的自然灾害。我们认为这类资源具有时效性特征。

所以,一个页面的检索价值,大致受以下四个要素的影响:

感兴趣的受众群大小

该页面的稀缺程度(可替代性)

该页面的质量高低

该页面的时效性特征强弱

这四种要素,简称受众,稀缺,质量和时效性。

1. 受众

受众群体的大小,即代表了用户检索需求的大小。评价受众的大小主要依据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限于:

网站忠实用户群大小

一般来说,拥有自己忠实用户群的知名网站,他们的成功,在于他们的内容和服务,比别人更能吸引和满足用户。从这个角度来说,我们可以推论,拥有更多 忠实用户群的网站上的内容,会比忠实用户群较少的网站上的内容,有更多的既有和潜在受众群。这样的话,忠实用户群大小,就可以变成对站点内资源检索价值的 一种衡量指标。忠实用户群的好处在于,它是变动的。如果一个网站变差了,那么用户就会用脚投票。超链有过期问题,作弊问题,而虚假用户群作弊很难。一般所 谓的网站知名度,会和忠实用户群数量密切相关。

资源分布规律

我们再考虑一个网站内部的资源分布所体现的受众群大小问题。比如新浪新闻首页的那些推介内容。新浪编辑为什么要推这些内容?因为他们认为这些是用户 最感兴趣的。那么从索引价值角度而言,相当于有一个庞大的编辑团队,已经对这些内容打上了符合大众口味的标签。搜索引擎只需要乐享其成就行了。这样的 话,资源相对于某些结构性关键页面(首页、频道页等)的链接深度,也可以成为衡量一个资源受众群大小的指标了。

访问热门度

我们再从访问热门度角度来考虑受众群大小问题。这个是最直接的,当然,它需要第三方的工具来获取关键数据。通过这个途径,获取的不应仅仅是需要入库的页面,还有用户访问一个网站的访问模式。

超链

超链某种程度上也是受众群大小的反映。某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。

2. 稀缺

稀缺主要是描述页面在互联网中的独特性。说到稀缺往往会想到重复,稀缺是否等同于无重复,我们应该怎样解读这一概念呢?可以看一个例子:

某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方 面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用新闻事件+新浪来检索此新闻。这可以被称之为站点增益。另一方面,它在 转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些 可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。

同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。

综上所述,对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。

3. 质量

页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。

首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。

其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。

最后,信息是否丰富、延伸出的次级需求是否满足。

典型的低质量页面存在以下一些特征:

主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)

死链

虚假信息/诈骗等

空页面

站点不稳定

影响主需求的权限问题(下载/浏览需要注册会员/积分等)

信息不完整(转载不全等)

浏览体验差(广告/字体/页面布局等)

典型的高质量页面存在以下一些特征:

访问速度快(页面加载快/资源下载速度快)

页面整洁干净,主体内容在显著位置。

页面信息完整。

页面元素丰富(文字、图片、评论、相关推荐等)

4. 时效性

时效性是页面价值的一个属性,它一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二 是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种新闻性。对于具有上述两种属性的页面,如果搜索引擎spider发现 页面的时间正处于该事物的爆发期或爆发期之前,我们认为该页面具有时效性。

需要说明的是,搜索引擎的广义时效性是指对所有有价值新资源的及时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的 搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章,张三的日记。页面价值中的时效性指得是一种突发时效性,也就是所有有价值页面中最需要及时 收录的那些。对页面时效性的判断是为了指导我们将搜索引擎有限的资源投入到最关键的地方,产生最好的性价比。

判断页面的时效性价值,主要通过下面一些途径:

页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。

描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报道,和这一事件相关的所有内容都具有了时效性属性。

根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常爆出一些热门帖子,公众话题,我们推测出自魔兽世界吧的帖子其时效性潜在价值比较高。

四、 页面价值的研究重点

前文已经介绍了页面价值的含义,研究的意义与价值判断的方法。最后我们再看一下,从技术角度上,这一方向的研究中的重点方向。对页面价值的研究工作主要致力于三方面:

对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升,是一个很重要问题。

对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。

对各种页面特征的组合策略(机器学习)。针对不用的应用方向,需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。

总结:

由此可见判断搜索引擎判断页面价值的标准,检索价值由受众、稀缺、质量,组成这是我们网站收录的重中之重,只要做好这几点网站收录就不会有问题。你的文章也是高质量的原创文章。

文章来源:

淄博网站推广

,天驰SEO(http://www.sdseoer.com) 转载请注明出处

更多网络知识及相关网络服务请QQ咨询深圳网站建设公司QQ:2361277551

相关行业资讯

1、做seo如何确保你的写作独特?
2、怎么让百度竞价推广更省钱
3、网站优化过程中死链对网站有什么影响
4、网站更新真的简单吗
5、内容优化很重要结构和页面优化亦是如此
6、如何设计出满意的网站网站设计四步走
7、制作网站并不是一蹴而就的
8、如何合理选择服务器放置网站
9、网站优化文章编写规则有哪些?
10、网络推广利器“百度推荐”全新推出
11、易捷教您一招认清网站建设公司骗局!
12、 SEO如何做URL路径优化_网站运营_深圳网络公司
13、如何根据网站建设的类型选择空间
14、SEO初期优化有哪些需要注意的事项?
15、论2898站长资源平台微博、微信公众号营销推广的优势
16、企业推广优化网站优化该怎么做
17、论述SEO与搜索引擎的阴阳平衡关系
18、建设网站不可不知的五大原则
19、谈谈网站优化如何提升网站的权重?
20、网站建设之初推广优化布局要注意哪些方面
21、一个网站的内链布局设置技巧
22、关于网络推广的三问三答
23、建立品牌网站的注意细节有哪些
24、 网站优化:一个小学教师建站的不惑与困惑
25、大气风格的网页设计
26、在网站建设中做好导航设计的那几大因素
27、如何使用google网站站长工具来提升你的网站流量
28、SEO标题设置必须要会的技巧
29、做家教网站可以赚钱吗
30、如何巧用内外链提升网站权重
31、市面上现在最流行的网站建设类型是什么呢?
32、如何确定建站的正确目标
33、网站的运营我们需要注意以下几点
34、关于GoogleAdWords的网站链接的10个特点
35、刘辉分享如何做好地方门户网站
36、外链的有效方法有哪些呢
37、深圳网站制作设计流程
38、网站建设浅谈做产品策划的技巧
39、 你不知道的几个常用网站推广方法
40、科技馆营销创新的几点建议
41、结合实例浅谈高校论坛建设及其盈利模式
42、seo优化不是一项技术工作
43、推广优化技巧:关键词的选择技巧
44、seo优化中什么样的词可以加内链?
45、如何在做网站时为优化助力
46、我们如何优化长尾提升网站流量-深圳网站建设公司
47、 个人优化网站和团队优化网站的异同_网站运营_深圳网络公司
48、超越完美:如何在2019年更智能地设计
49、为企业做网站的人员需要掌握哪些技能
50、SEO基础之网站导航SEO优化技巧

相关视频推荐

自动化行业网站制作焊锡机/点胶机/螺丝机网站
企业网站制作新模式全部仅需800元/年
如何提高企叫网站打开速度
公司网站到期了该怎小续费
企业为什么必须要做一网站
企业网站的导航栏一般要规划哪些栏目
国际物流FBA物流网站建设深圳易捷网站公司公司
银制品金银器网站建设深圳易捷网站公司
包装印刷行业网站设计
膜结构公司网站设计
工商财务公司网站设计
购买一个域名需要多少钱
企业网站建设云虚拟主机需要多少钱
财务公言的网站怎么做才能显示在搜索引擎的首页
网站建设一站式服务
深圳网站建设公司网站排行榜
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号