百度站长学院：搜索引擎工作原理之抓取篇

472 阅读 0 评论 0 点赞

spider抓取系统包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。

Baiduspider根据上述网站设置的协议对站点页面进行抓取，但是不可能做到对所有站点一视同仁，会综合考虑站点实际情况确定一个抓取配额，每天定量抓取站点内容，即我们常说的抓取频次。

那么百度搜索引擎是根据什么指标来确定对一个网站的抓取频次的呢，主要指标有四个：

1、网站更新频率

更新快多来，更新慢少来，直接影响Baiduspider的来访频率；

2、网站更新质量

更新频率提高了，仅仅是吸引了Baiduspier的注意，Baiduspider对质量是有严格要求的，如果网站每天更新出的大量内容都被Baiduspider判定为低质页面，依然没有意义；

3、连通度

网站应该安全稳定、对Baiduspider保持畅通，经常给Baiduspider吃闭门羹可不是好事情；

4、站点评价

百度搜索引擎对每个站点都会有一个评价，且这个评价会根据站点情况不断变化，是百度搜索引擎对站点的一个基础打分（绝非外界所说的百度权重），是百度内部一个非常机密的数据。站点评级从不独立使用，会配合其它因子和阈值一起共同影响对网站的抓取和排序。

Baiduspider抓了多少页面并不是最重要的，重要的是有多少页面被建索引库，即我们常说的“建库”。

众所周知，搜索引擎的索引库是分层级的，优质的网页会被分配到重要索引库，普通网页会待在普通库，再差一些的网页会被分配到低级库去当补充材料。

目前60%的检索需求只调用重要索引库即可满足，这也就解释了为什么有些网站的收录量超高流量却一直不理想。

哪些网页可以进入优质索引库呢。

其实总的原则就是一个：对用户的价值。

包括却不限于：

1、有时效性且有价值的页面

在这里，时效性和价值是并列关系，缺一不可。有些站点为了产生时效性内容页面做了大量采集工作，产生了一堆无价值面页，也是百度不愿看到的；

2、内容优质的专题页面

专题页面的内容不一定完全是原创的，即可以很好地把各方内容整合在一起，或者增加一些新鲜的内容，比如观点和评论，给用户更丰富全面的内容；

3、高价值原创内容页面

百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创；

4、重要个人页面

这里仅举一个例子，科比在新浪微博开户了，需要他不经常更新，但对于百度来说，它仍然是一个极重要的页面。

哪些网页无法建入索引库

上述优质网页进了索引库，那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们，而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢：

1、重复内容的网页：互联网上已有的内容，百度必然没有必要再收录。

2、主体内容空短的网页

2.1、有些内容使用了百度spider无法解析的技术，如JS、AJAX等，虽然用户访问能看到丰富的内容，依然会被搜索引擎抛弃

2.2、加载速度过慢的网页，也有可能被当作空短页面处理，注意广告加载时间算在网页整体加载时间内。

2.3、很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。

3、部分作弊网页

点赞(0) 打赏

本文分类：站长学院
本文标签：《百度站长学院》
浏览次数：472 次浏览
发布日期：2021-11-04 08:34:15
本文链接：https://www.eruiyi.cn/cms/zhanzhangxueyuan/97172.html

上一篇 > 站长学院的匆匆那些年
下一篇 > 站长学院：如何合理优化手机网站提升流量

评论列表共有 0 条评论

暂无评论

发表评论取消回复

热门产品
查看更多

触发修改文章时间【fastadmincms开发记录】|fastadmincms二次开发,触发,修改,文章,时间,fastadmin,ms,开发,记录

触发修改文章时间【fastadmincms开发记录】

在tp5中过滤输入的零宽度字符【fastadmincms开发记录】|fastadmincms二次开发,在tp5中,过滤,输入,的零,宽度,字符,fastadmin,ms,开发,记录

在tp5中过滤输入的零宽度字符【fastadmincms开发记录】

处理tag标签中的0宽空格【fastadmincms开发记录】|fastadmincms二次开发,处理,tag,标签,中的,0宽,空格,fastadmin,ms,开发,记录

处理tag标签中的0宽空格【fastadmincms开发记录】

添加专题时tags标签id出错【fastadmincms开发记录】|fastadmincms二次开发,添加,专题,时tags,标签,id,出错,fastadmin,ms,开发,记录

添加专题时tags标签id出错【fastadmincms开发记录】

20230518----模板广告【fastadmincms开发记录】|fastadmincms二次开发,20230518,模板,广告,fastadmin,ms,开发,记录

20230518----模板广告【fastadmincms开发记录】

cms添加视频模型【fastadmincms开发记录】|fastadmincms二次开发,ms,添加,视频,模型,fastadmin,开发,记录

cms添加视频模型【fastadmincms开发记录】

新增单篇收费复制功能【fastadmincms开发记录】|fastadmincms二次开发,新增,单篇,收费,复制,功能,fastadmin,ms,开发,记录

新增单篇收费复制功能【fastadmincms开发记录】

添加开会员折扣功能【fastadmincms开发记录】|fastadmincms二次开发,添加,开会,折扣,功能,fastadmin,ms,开发,记录

添加开会员折扣功能【fastadmincms开发记录】

历史上的今天：04月29日

猜你喜欢

把数据保存到数据库主表 `archives` 时出错，请把相关信息提|数据,保存,到数,据库,主表, `ar,hives` ,时出,请把,相关,信息

把数据保存到数据库主表 `archives` 时出错，请把相关信息提

dedecms织梦会员模板调用全站head.htm模板|dedecms织梦,会员,模板,调用,全站,head,htm

dedecms织梦会员模板调用全站head.htm模板

2021暗月渗透测试全栈学习班（更新）|全栈学习班,2021暗月,渗透,测试,全栈,学习班,更新

2021暗月渗透测试全栈学习班（更新）

WordPress网站如何备份？分享三种方法，适合日常备份、网站搬家（视频教程）|wordpress,网站,如何,备份,分享,三种,方法,适合,日常,搬家,视频,教程

WordPress网站如何备份？分享三种方法，适合日常备份、网站搬家（视频教程）

百度：学习项目整合思维的运用|百度：学习项目整合思维的运用

百度：学习项目整合思维的运用

织梦dedecms熊掌号时间因子改造教程|织梦dedecms熊掌号时间因子改造教程

织梦dedecms熊掌号时间因子改造教程

让dedecms autoindex,itemindex 从0到1开始的办法!|让dedecms autoindex,itemindex 从0到1,开始,办法

让dedecms autoindex,itemindex 从0到1开始的办法!

织梦模板网站favicon.ico图标添加方法|织梦,模板,网站,favi,on,图标,添加,方法

织梦模板网站favicon.ico图标添加方法

热门专题

金诺幼儿园（春城路金诺幼儿园）|昆明官渡区幼儿园,幼儿园报名,官渡区幼儿园,春城路幼儿园,幼儿园招生,学前班,昆明幼儿园,金诺幼儿园,环城南路幼儿园,石井路幼儿园

金诺幼儿园（春城路金诺幼儿园）

卓越综合高中

云南开放大学|云南开放大学报名,云南开放大学报考,云南开放大学,什么是云南开放大学，云南开放大学学历,云南开放大学学费,云南开放大学报名条件,云南开放大学报名时间,云南开放大学学历,云南开放大学专业

云南开放大学

外贸网站建设|外贸网站建设,英文网站制作,英文网站设计,美国主机空间,外贸建站平台,多语言网站制作

外贸网站建设

云南高职单招|云南单招,云南单招网,云南高职单招网,云南高职单招,云南单招学校,云南单招培训

云南高职单招

弥勒综合高中

国家开放大学|国家开放大学报名,国家开放大学报考,国家开放大学,什么是国家开放大学，国家开放大学学历,国家开放大学学费,国家开放大学报名条件,国家开放大学报名时间,国家开放大学学历,国家开放大学专业

国家开放大学

大理科技管理学校|大理科技管理中等职业技术学校,大理市科技管理中等职业技术学校

大理科技管理学校

推荐标签

提议水培牧草减肥电话沟通话术电力管敷设施工方法命令模板建筑三类人员考试节俭管理金太阳联考试题销售技巧话术培训守寡式婚姻美容岗位职责美容师销售沟通喝酒规矩销售金句公考试题 Android技术面试煤矿探放水仿真题职业讲师训练学历与婚姻成人高考通关攻略汆汤三鲜鱼生的做法大器者八律成功可以复制吗安徽C-PVC电力管温暖的文案抹茶和绿茶粉的区别怀孕最佳姿势餐饮禁忌高职单招设计师邀约话术

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部