网站SEO优化之Robots.txt配置

搜索引擎通过一种程序 robot(又称 spider),自动访问互联网上的网页并获取网页信息。

您可以在您的网站中创建一个纯文本文件 robots.txt,在这个文件中声明该网站中不想被 robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。robots.txt 文件应该放在网站根目录下。

robots.txt 文件的格式:

"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示:

"<field>:<optionalspace><value><optionalspace>"。

在该文件中可以使用#进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎 robot 的名字,在"robots.txt"文件中,如果有多条 User-agent 记录说

明有多个 robot 会受到该协议的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为*,则该协议对任何机器人均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

Disallow:

该项的值用于描述不希望被访问到的一个 URL,这个 URL 可以是一条完整的路径,也可以是部分的,任何以 Disallow 开头的 URL 均不会被 robot 访问到。例如"Disallow:/help"对/help.html 和

/help/index.html 都不允许搜索引擎访问,而"Disallow:/help/"则允许 robot 访问/help.html,而不能访问

/help/index.html。任何一条 Disallow 记录为空,说明该网站的所有部分都允许被访问,在"/robots.txt" 文件中,至少要有一条 Disallow 记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎 robot, 该网站都是开放的。

robots.txt 文件用法举例:

例 1. 禁止所有搜索引擎访问网站的任何部分下载该robots.txt文件

User-agent: * Disallow: /

例 2. 允许所有的 robot 访问 ( 或者也可以建一个空文件 

"/robots.txt" file)

User-agent: * Disallow:

例 3. 禁止某个搜索引擎的访问

User-agent: BadBot Disallow: /

例 4. 允许某个搜索引擎的访问

User-agent: baiduspider Disallow:

User-agent: * Disallow: /

例 5.一个简单例子

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制即搜索引擎不会访问这三个目录。

需要注意的是对每一个目录必须分开声明,而不要写成

"Disallow: /cgi-bin/ /tmp/"。

User-agent:后的*具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"这样的记录出现.

, User-agent: Disallow:

/cgi-bin/ Disallow: /tmp/ Disallow: /~joe/

Robot 特殊参数:

1. Google

允许 Googlebot

如果您要拦截除 Googlebot  以外的所有漫游器访问您的网页,可以使用下列语法:

User-agent:Disallow:/ User-agent:Googlebot

Disallow:

Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

"Allow"扩展名:

Googlebot 可识别称为"Allow"的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。"Allow"行的作用原理完全与"Disallow" 行一样。只需列出您要允许的目录或页面即可。

您也可以同时使用"Disallow"和"Allow"。例如,要拦截子目录中某个页面之外的其他所有页面,   可以使用下列条目:

User-Agent:Googlebot Disallow:/folder1/ Allow:/folder1/myfile.html

这些条目将拦截 folder1  目录内除 myfile.html  之外的所有页面。

如果您要拦截 Googlebot  并允许 Google  的另一个漫游器(如 Googlebot-Mobile),可使用

"Allow"规则允许该漫游器的访问。例如:

User-agent:Googlebot Disallow:/

User-agent:Googlebot-Mobile Allow:

使用 *  号匹配字符序列:

您可使用星号 (*) 来匹配字符序列。例如,要拦截对所有以 private 开头的子目录的访问,可使用下列条目:

User-Agent:Googlebot Disallow:/private*/

要拦截对所有包含问号 (?) 的网址的访问,可使用下列条目:

User-agent:* Disallow:/*?*

使用 $  匹配网址的结束字符

您可使用 $ 字符指定与网址的结束字符进行匹配。例如,要拦截以 .asp 结尾的网址,可使用下列条目:

User-Agent:Googlebot Disallow:/*.asp$

您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 表示一个会话 ID,您可排除所有包含该 ID 的网址,确保 Googlebot 不会抓取重复的网页。但是,以 ?  结尾的网址可能是您要包含的网页版本。在此情况下,可对 robots.txt  文件进行如下设置:

User-agent:* Allow:/*?$ Disallow:/*?

Disallow:/ *?一行将拦截包含 ? 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号 (?),而后又是任意字符串的网址)。

Allow: /*?$ 一行将允许包含任何以 ? 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符的网址)。

Sitemap 网站地图:

对网站地图的新的支持方式,就是在 robots.txt 文件里直接包括 sitemap 文件的链接。就像这样:

Sitemap: http://www.supercss.com/index.xml

目前对此表示支持的搜索引擎公司有 Google, Yahoo, Ask and MSN。

不过,我建议还是在 Google Sitemap 进行提交,里面有很多功能可以分析你的链接状态。

Robots.txt 带来的好处:

1. 几乎所有的搜索引擎 Spider 都遵循 robots.txt 给出的爬行规则,协议规定搜索引擎 Spider 进入某个网站的入口即是该网站的 robots.txt,当然,前提是该网站存在此文件。对于没有配置robots.txt 的网站,Spider 将会被重定向至 404 错误页面,相关研究表明,如果网站采用了自定义的 404 错误页面,那么 Spider 将会把其视作 robots.txt虽然其并非一个纯粹的文本文件这将给 Spider 索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。

2. robots.txt 可以制止不必要的搜索引擎占用服务器的宝贵带宽,如 email retrievers,这类搜索引擎对大多数网站是没有意义的;再如 image strippers,对于大多数非图形类网站来说其也没有太大意义,但却耗用大量带宽。

3. robots.txt 可以制止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序,事实上,对于某些在运行中产生临时页面的网站来说,如果未配置 robots.txt,搜索引擎甚至会索引那些临时文件。

4. 对于内容丰富、存在很多页面的网站来说,配置 robots.txt 的意义更为重大,因为很多时候其会遭遇到搜索引擎 Spider 给予网站的巨大压力:洪水般的 Spider 访问,如果不加控制,甚至会影响网站的正常访问。

5. 同样地,如果网站内存在重复内容,使用 robots.txt 限制部分页面不被搜索引擎索引和收录, 可以避免网站受到搜索引擎关于 duplicate content 的惩罚,保证网站的排名不受影响。

robots.txt 带来的风险及解决:

1. 凡事有利必有弊,robots.txt 同时也带来了一定的风险:其也给攻击者指明了网站的目录结构和私密数据所在的位置。虽然在 Web 服务器的安全措施配置得当的前提下这不是一个严重的问题,但毕竟降低了那些不怀好意者的攻击难度。

比如说,如果网站中的私密数据通过 www.yourdomain.com/private/index.html 访问,那么,在 robots.txt 的设置可能如下:

User-agent: * Disallow: /private/

这样,攻击者只需看一下 robots.txt 即可知你要隐藏的内容在哪里,在浏览器中输入www.yourdomain.com/private/ 便可访问我们不欲公开的内容。对这种情况,一般采取如下的办法:

设置访问权限,对/private/中的内容实施密码保护,这样,攻击者便无从进入。

另一种办法是将缺省的目录主文件 index.html 更名为其他,比如说 abc-protect.html,这样, 该内容的地址即变成 www.yourdomain.com/private/abc-protect.htm,同时,制作一个新的index.html 文件,内容大致为你没有权限访问此页之类,这样,攻击者因不知实际的文件名而无法访问私密内容。

2. 如果设置不对,将导致搜索引擎将索引的数据全部删除。

User-agent: * Disallow: /

上述代码将禁止所有的搜索引擎索引数据。参见:页面收录减少,如何检查判断?

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

热门产品

短视频/直播电商部门岗位职责及绩效考核指标管理实施办法|短视频运营岗位职责,直播电商部门管理,直播电商部门绩效考核,短视,频/,直播,电商,部门,岗位职责,绩效,考核,指标,管理,实施办法
短视频/直播电商部门岗位职责及绩效考核指标管理实施办法
在线药店设计书(范文)|在线药店设计书,在线药店设计,在线药店,在线,药店,设计书,范文
在线药店设计书(范文)
x升电子有限公司商务网站项目设计书|商务网站项目设计书,商务网站项目,商务网站,瑞升电子有限公司,x升,电子,有限公司,项目,设计书
x升电子有限公司商务网站项目设计书
必通网上考试书店项目设计书(范文)|必通网上考试书店项目设计书,网上考试书店项目设计书,网上考试书店项目设计,网上考试书店项目,必通,网上,考试,书店,项目,设计书,范文
必通网上考试书店项目设计书(范文)
(有详细评估的范文)E-WORK网络实习平台及线下实习教育|网络实习平台,线下实习教育,E-WORK网络实习平台,详细,评估,范文,work,网络,实习,平台,线下,教育
(有详细评估的范文)E-WORK网络实习平台及线下实习教育
(范文)网上内衣店项目设计书|内衣店项目设计书,网上内衣店项目设计书,内衣店项目设计,范文,网上,内衣,项目,设计书
(范文)网上内衣店项目设计书
**鞋业公司  开拓电子商务和校园市场  营销策划方案|鞋业营销策划,鞋业营销策划方案,**,鞋业,公司,开拓,电子商务,校园,市场,营销策划,方案
**鞋业公司 开拓电子商务和校园市场 营销策划方案
视频伪原创处理:短视频搬运处理方法步骤及图文视频深度创作处理|视频搬运方法,视频搬运技巧,视频伪原创,图文视频技巧,搬运,视频,处理,步骤,图文,原创,短视频搬运,短视,方法,深度,创作
视频伪原创处理:短视频搬运处理方法步骤及图文视频深度创作处理

历史上的今天:04月30日

新手零基础入门学习网络营销的五大要点!

新手零基础入门学习网络营销的五大要点!学网络营销难不难?0基础的新手如何学好网络营销,很多新手做网络营销不知道该怎么去学习,不知怎么去做,不知如何发挥实际效果。在SEO这个技术领域里面为自己打好坚实的基础,是每一个初学者渴望实现的目标。所以针对关于新手如何入门网络营销,有以下几点:一、快速建站实战快速建站非常简单,0基础的人一个小时也可以学会,主要5点:1、租用空间域名这个在国内的万网、新网、西部

网络营销需要什么基础?掌握哪些知识?

网络营销需要什么基础?掌握哪些知识?大家在做网络营销之前要先掌握其概念,它是指凡是通过网络来进行的销售活动的总称。那么我们必须要会些什么基础知识才能有效的去开展呢?首先你得掌握一些基本的销售手段,线上和线下的销售手段都差不多;其次对电子商务要特别掌握;还有对互联网和其他媒体都要了解一些基础知识,它是整个网络营销的基础也是进行升华的手段。1、有一个正确的认识我们在做之前要给它一个正确的认识,站在客观

网络营销做什么?(网络营销的基本上常识分享)

网络营销做什么?(网络营销的基本上常识分享)网络营销的基本常识是什么?为什么必须这样做才能学好网络营销呢?网络营销主要做什么?网络营销的基本上常识分享!一起来看看吧:网络营销是企业整体营销战略的一个组成部分,是为实现企业总体经营目标所进行的,以互联网为基本手段营造网上经营环境的各种活动,是一个广义词,从目前的商业来讲网络营销更宽泛的涵盖网络的产品及投放互联网概念。网络营销(On-line Mark

360一天做到首页排名方法

360一天做到首页排名方法实测360快速排名方法据国内权威统计机构CNZZ的数据显示,在2014年3月,百度搜索市场占有率为58.76%,排名第二位的360搜索市场占有率为 25.41%,搜狗(含soso)市场占有率仅为12.58%,其余谷歌、微软必应等搜索软件市场份额不足6%。从统计数据可以看出,国内市场两强相争局 面已经形成,搜狗通过CNZZ3月份的统计数据显示,360搜索25.41%的市场占

营销 | 网络营销小知识

营销 | 网络营销小知识随着我国市场经济活动的高速发展和国际网络经济的到来,网络营销也悄然兴起,那网络营销的小知识有哪些呢,一起去看看吧!NO.1 什么是网络营销网络营销是随着互联网的快速发展而出现的一种营销模式。它以现代电子技术和通信技术的应用与发展为基础,带来了市场竞争以及营销观念和策略的转变,创造出全新的市场和机会。NO.2 网络营销的特点虚拟性网络营销以 Inter

SEM高级课程大纲【全网独家系统版】

SEM高级课程大纲【全网独家系统版】大纲题目备注学习网络营销必备哪些知识高手可路过百度搜索推广(SEM)的入门介绍搜索引擎推广是怎么发展过来的?做百度推广有些什么样的政策?网络营销必须知道的营销指标&amp;漏斗分析网络营销必须知道的IP&amp;PV&amp;UV分别是什么?网络营销基础必备的PPC&amp;CPC&amp;CPM知识网络营销理论基础知识之二八法则&amp;长尾理论优秀健康账户的

热门专题

小程序开发|微信小程序,小程序开发,小程序,小程序制作,微信小程序开发,小程序公司,小程序开发公司,分销,三级分销系统,分销系统
小程序开发
安徽开放大学|安徽开放大学报名,安徽开放大学报考,安徽开放大学,什么是安徽开放大学,安徽开放大学学历,安徽开放大学学费,安徽开放大学报名条件,安徽开放大学报名时间,安徽开放大学学历,安徽开放大学专业
安徽开放大学
易捷尔单招|易捷尔单招,易捷尔单招培训,易捷尔单招报名,易捷尔单招考试,易捷尔单招培训学校,易捷尔单招分数
易捷尔单招
金诺幼儿园(春城路金诺幼儿园)|昆明官渡区幼儿园,幼儿园报名,官渡区幼儿园,春城路幼儿园,幼儿园招生,学前班,昆明幼儿园,金诺幼儿园,环城南路幼儿园,石井路幼儿园
金诺幼儿园(春城路金诺幼儿园)
云南网站建设|云南网站制作,网站建设,云南网站开发,云南网站设计,云南网页设计,云南网站建设公司,云南网站建设
云南网站建设
开放大学|开放大学报名,开放大学报考,开放大学,什么是开放大学,开放大学学历,开放大学学费,开放大学报名条件,开放大学报名时间,开放大学学历,开放大学专业
开放大学
大理科技管理学校|大理科技管理中等职业技术学校,大理市科技管理中等职业技术学校
大理科技管理学校
安徽中源管业|安徽中源管业,安徽中源管业mpp电力管,安徽中源管业cpvc电力管,安徽中源管业pe穿线管,安徽中源管业电力管,安徽中源管业排水管,安徽中源管业通信管,安徽中源管业管材
安徽中源管业

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部