# #
Robots.txt文件的本质
robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件并且会根据robots.txt文件的内容来爬行网站作用。在某种意义上说
当搜索引擎蜘蛛访问网站时它会首先检查该站点根目录下是否存在robots.txt文件如果该文件存在搜索引擎 蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在则所有的搜索引擎蜘蛛将能够访问网站上所有没有被密码保护的页面文件。如果我们不配置robots文件那么蜘蛛来到网站以后会无目的的爬行造成一个结果就是需要它爬行的目录没有爬行到不需要 所以机器人文件对于我们做网站优化来说具有很重要的影响robots.txt。
网站没有Robots.txt文件的缺点端
如果网站中没有 robots.txt文件则网站中的程序脚本样式表等一些和网站内容无关的文件或目录甚至被搜索引擎蜘蛛爬行也不会增加网站的收录率和权重企业网站也不会增加网站的收录率和权重只会浪费服务器资源;搜索引擎 派出的蜘蛛资源也是有限的我们要做的应该是应该让蜘蛛爬行网站重点文件目录替换的节约蜘蛛资源。Robots.txt文件的放置位置
网站根目录下通过“域名/ robots .txt”能正常访问即可如域名/robots.txt
迪思网站托管Robots.txt文件的说明
用户代理:*
(注释 :此处的*代表所有的搜索引擎种类*是一个通配符;当然你也可以针对某个搜索引擎如用户代理:Baiduspider用户代理:360Spider用户代理:Sogouspider。)
不允许: / i * /
(注释:Disallow为禁止爬行如果需要禁止蜘蛛爬行images目录可以写为Disallow:/ images /;推荐本站采用的写法Disallow:/ i * /企业网站Disallow:/ i * /可以在一定尺寸 提高网站的安全性如果写成不允许:/ images /可能会暴露网站后台文件路径特别是管理路径。
不允许:/ a * d /
(注释:禁止爬行所有以字母a开始以字母d结束的目录如/ abd // acd /企业网站/ acd // abcd /这种写法也是出于安全考虑。)
Disallow :/*.php
(注:禁止爬行根目录下的所有以.php结尾的文件实际情况可以根据您所使用的网站程序来决定。)
不允许:/*/*.php
不允许:/*/list*.html
(注:网站栏目文章多的时候会有分页如第1页第 2页……如果需要禁止爬行分页假设分页URL 为我们可以采取Disallow:/*/list*.html这种写法来禁止爬行所有目录下的所有分页。)
允许:/img/