robots是什么-重庆SEO技术博客

1.robots是什么？

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

Robots 协议是互联网爬虫的一项公认的道德规范，全称是“网络爬虫排除标准（Robots exclusion protocol）”，这个协议用来告诉通用型爬虫（蜘蛛），哪些页面是可以抓取的，哪些不可以。

2.如何查看网站的 Robots 协议呢？

很简单，在网站的根目录域名后加上/robots.txt就可以了。例如，通过https://www.douban.com/robots.txt 这个链接可以查看豆瓣的 Robots 协议。

Allow 代表允许访问，Disallow 就是禁止访问，User-agent 可以判断是哪家爬虫，经常产生新数据网站 sitemap 文件会用的比较多。

豆瓣的 robots.txt 文件表示：
①对豌豆荚爬虫完全屏蔽，不允许它爬任何豆瓣的网页
②对谷歌广告爬虫，允许爬取除了以Disallow开头的网址以外的其他网址，并且爬取的时间间隔为 5s。
③对于任何爬虫（除豌豆荚爬虫、谷歌的广告爬虫），允许爬取除了以Disallow开头的网址以外的其他网址，并且爬取的时间间隔为 5s。

3. Robots的使用技巧

①每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该在网站中添加一个robots.txt。

② 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如：大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
下面是VeryCMS里的robots.txt文件：

User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件

③如果你的网站是动态网页，并且你为这些动态网页创建了静态副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引，以保证这些网页不会被视为含重复内容。
④ robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样：

Sitemap: http://www.***.com/sitemap.xml

对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司，显然不在这个圈子内。这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。

⑤ 合理使用robots.txt文件还能避免访问时出错。比如，不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

4.常见Robots名字

google蜘蛛： googlebot
百度蜘蛛：baiduspider
yahoo蜘蛛：slurp
alexa蜘蛛：ia_archiver
msn蜘蛛：msnbot
altavista蜘蛛：scooter
lycos蜘蛛： lycos_spider_(t-rex)
alltheweb蜘蛛： fast-webcrawler/
inktomi蜘蛛： slurp

robots.txt文件名必须是小写，而且放在网站根目录

SEO入门教程 SEO教程建站教程 SEO培训

robots是什么

上一篇

PV、UV、IP的区别

下一篇

HTTP状态码

联系我

近期文章

相关文章

第十五节百度云虚拟主机快速搭建discuz 网站

第十四节百度云虚拟主机搭建织梦dedecms网站

第十三节百度云虚拟主机搭建wordpress网站

第十二节使用FTP工具进行远程连接百度云虚拟主机

robots是什么

上一篇

PV、UV、IP的区别

下一篇

HTTP状态码

联系我

近期文章

标签

相关文章

第十五节 百度云虚拟主机快速搭建discuz 网站

第十四节 百度云虚拟主机搭建织梦dedecms网站

第十三节 百度云虚拟主机搭建wordpress网站

第十二节 使用FTP工具进行远程连接百度云虚拟主机

第十五节百度云虚拟主机快速搭建discuz 网站

第十四节百度云虚拟主机搭建织梦dedecms网站

第十三节百度云虚拟主机搭建wordpress网站

第十二节使用FTP工具进行远程连接百度云虚拟主机