1.robots.txt文件的路径
robotstxt文件固定是在网站根目录下就是网站域名的下一级文件名就是robots.txt如:
https ://www.kexufang.com/ robots.txt。
2.robots.txt文件网站必须要有
可能会有SEO优化人员会说网站内容就是想让蜘蛛随意抓取所以服务器放不 其实这种说法是不对的因为robost.txt文件会影响到服务器的设置方面如果robots.txt文件不存在服务器会返回200状态码及一些错误信息而不是 404状态码这很有可能让搜索引擎的蜘蛛误读robots.txt文件的内容。其次就算允许搜索引擎蜘蛛随意抓取也应该创建一个空的robots.txt文件放在网站根目录下。
3.robots.txt文件的基本格式
robots文件由记录组成记录之间以空行分开记录格式如下:
空间可以在域值两边可加可不加可以简单记为:<域>:<域值>
robots.txt文件最简单样式为:
用户代理:*
不允许:/
不过此robots.txt文件不建议使用因为这个是禁止所有搜索引擎抓取任何内容。
允许所有搜索引擎抓取任何内容的robots.txt为:
用户代理:*
不允许:
4.robots.txt文件的编写方法
4.1.User-agent
以下规则适用于所有搜索引擎:User-agent :*
只适用于百度:User-agent:Baiduspider
4.2.Disallow
告诉蜘蛛不要去抓取某些文件或目录写法:每禁止一个抓取一个文件或目 例如禁止抓取temp和a目录禁止抓取b目录下的11.html和22 .html。
Disallow:/ temp /
Disallow:/ a /
Disallow:/b/11.html
Disallow:/b/22.html
切勿写为Disallow:/ temp / / a /
4.3.Allow
告诉蜘蛛应该抓取某些文件或目录由于不指定则是允许抓取故Allow必须和Disallow一起用。
如禁止抓取目录a下一个文件在允许
Disallow:/ a /
Allow:/ a / b /
如禁止抓取.jpg格式的图片:
不允许:.jpg $
如允许抓取所有.htm文件:
允许:.htm $
4.6.Sitemap
告诉搜索引擎网站sitemaps的位置是对搜索引擎蜘蛛的友好。当然一般情况下sitemaps也是放置网站根目录(如客绪方网络的sitemap位置https://www.kexufang .com / sitemap.xml)。
Sitemap:https://www.kexufang.com/ sitemap.xml
robots是禁止抓取的还有一种方式为禁止索引noindex meta robots标签。
noindex meta robots标签是页面
head>中间的元标记的一种用于告诉搜索引擎禁止索引页面内容因此也就不会出现在搜索引擎的结果页面中 了。格式如下:
<元名称=“ robots” content =“ noindex”nofollow>
百度仅支持nofollow 和
noarchiveGoogle熊掌号教程禁止跟踪页面上方的链接。
百度仅支持nofollow 和
noarchiveGoogle必应都支持下面的标签。告诉搜索引擎不要显示
最后一个要介绍的就是标签上的rel =“ nofollow”熊掌号教程必应都支持下面的标签。告诉搜索引擎不要显示
最后一个要介绍的就是标签上的rel =“ nofollow”最初这个标签的创造是为了告诉告诉搜索引擎这个链接非 站长自主编辑不要传递权重。后来慢慢就变成控制网站权重流动的一种方式。