搜索引擎蜘蛛抓取体验听上去是一个新名词其实它和用户体验一样大多数其实它和用户体验一样很早就出现在SEO行业里面了。搜索引擎蜘蛛抓取体验可能是潜伏在资深SEOER脑海里的一个词。
我们知道搜索引擎抓有抓取份额它是搜索引擎蜘蛛花在一个网站上的抓取页面的总的时间上限。对于特定网站搜索引擎蜘蛛花在这个网站上的总时间是相对固定的不会无限制地抓取网站所有页面。
决定抓取需求的主要有两个因素。一是页面权重网站上有多少页面达到了基本页面权重搜索引擎就想抓取多少页面。二是索引库里页面是否太久没更新了。说到底还是页面权重权重高的页面就不会太久不更新。页面权重和网站权重又是息息相关的提高网站权重就能使搜索引擎愿意多抓取页面。
搜索引擎蜘蛛抓取体验和你写采集规则是一样的一个网站有良好的代码结构良好的URL结构你可以轻易写出采集规则顺利完成这个网站内容采集工作。
URL一个网站的URL如果很复杂经过几次302或301跳转后才能到达目的页面。这样的URL如果你要用CMS写采集规则是不是增加了采集规则的难度。有些URL甚至通过JS跳转才能到达内容页面这些URL链接请问该如何写采集规则。
代码结构一个网站的列表页面和内容页面代码非常复杂。有可能是word编辑的内容直接复制到网站后台编辑器直接发布。一个列表页面可能是JSiframe嵌入页面这样的代码结构该如何写采集规则?你可能就直接放弃采集这个网站。搜索引擎蜘蛛也一样可能计划来1万次抓取的由于分析效率太低它可能只能来1000次。
如果SEOER有编程经验通过对代码复杂的分析针对网站写出采集规则是没问题的。那么搜索引擎蜘蛛呢?搜索引擎蜘蛛该如何来抓取这些内容搜索引擎蜘蛛可不会针对某个网站写采集规则。
如果一个网站的搜索引擎蜘蛛状态码40%都是302?笔者仔细看了他网站的链接结构都是/xxxx结尾的访问后链接后面自动加了/变为/xxxx/。搜索引擎蜘蛛访问/xxxx后通过302跳转到了/xxxx/。请问这样的跳转访问搜索引擎蜘蛛抓取体验是怎么样的?答案很明确造成了蜘蛛多访问一次如果这个网站有100万页面蜘蛛就会多访问100万次才能抓取到目标内容。