robots.txt是什么及写法

搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。
搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。

robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。

如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。
上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。 注意,robots.txt的命名,都应该是小写。

访问如:http://www.yomar.cn/robots.txt

robots.txt文件的内容主要就是一个代码:Disallow:

注意,robots.txt文件中一般要包含至少一个Disallow: 
如果都允许收录,你可以写一行Disallow:/search.html   这个文件(search.html)本来就不存在也没事。

格式如:
User-agent: *
Disallow: /search.html
Disallow: /index.php?
Disallow: /tempweb/

说明:
User-agent: *   星号说明,允许所有的搜索引擎来收录,包括百度、google、yahoo等。
Disallow: /search.html  说明不允许收录 /search.html 这个文件。
Disallow: /index.php?  说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等
Disallow: /tempweb/  说明不允许收录/tempweb/里的所有文件。但可以收录如:/tempwebtaim.html 的链接。
这里介绍的是常用的几个代码。
如果需要了解更多关于Disallow:的用法,请了解百度官方的介绍:http://www.baidu.com/search/robots.html

标签:robots.txt
分类:技术文章 | 发布:南通SEO | 查看: | 发表时间:2011-1-7
原创文章如转载,请注明:转载自www.yomar.cn,本文链接:http://www.yomar.cn/25.html
 相关文章

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

联系我们

  公司总机:0513-89013245
  咨询热线:13813721030

南通SEO
南通SEO
排行文章
随机文章

Copyright◎2011-2015 南通优玛网络营销策划机构 All Rights Reserved.