图片来自互联网
搜索引擎的工作过程大致分为三个阶段:爬行和抓取预处理和排名。今天的主要部分是爬行和抓取。
1。蜘蛛
搜索引擎爬行和使用的程序被称为蜘蛛或爬虫访问页面。搜索引擎蜘蛛访问网站类似于用户使用浏览器。为了提高爬行爬行速度搜索引擎提交爬行速度使用多个搜索引擎蜘蛛爬并行。
当蜘蛛访问任何网站它首先参观了机器人。txt文件在网站的根目录。如果机器人。txt文件禁止爬行蜘蛛不会爬。
搜索引擎蜘蛛也会识别自我认同的原则和网站管理员可以识别搜索引擎蜘蛛在日志文件(如Baiduspider)
2链接跟踪
为了尽可能爬行网站的页面蜘蛛将跟随页面上的链接。从一个页面到next-crawling像一只蜘蛛爬在一个蜘蛛网这是搜索引擎蜘蛛名称的起源。
因为网站和页面链接结构是非常复杂的和复杂的蜘蛛需要采用特定的爬行策略遍历所有页面在网站上。这里有两个爬遍历策略涉及:深度优先和广度优先。
如下图所示:从页面蜘蛛爬行抓取A1 A2 A3返回页面跟随当没有其他链接到A3页。然后继续B1。在遍历过程中搜索引擎爬行直到蜘蛛再也不能回到之前工作向前爬另一个电话。
深度优先遍历
如下图所示:蜘蛛爬行A1从页面到页面B1 C1直到所有页面上的链接都是爬然后找到下一个页面从A1。爬A2、A3、A4页面链接在第一级。
广度优先遍历
理论上来说只要时间给爬行蜘蛛在这两个方法可以爬行整个互联网。然而在实际工作中蜘蛛爬行的带宽资源由搜索引擎的时间是有限的不可能抓取所有页面。事实上最大的搜索引擎爬行包括互联网的只有一小部分。深度和广度优先通常是一个混合的工作以便能照顾的原则尽可能多的网站(优先)也照顾的内部页面的一部分网站(深度优先)?同时考虑页面的重量吗?网站规模爬行等因素外部链接和更新。
3。吸引蜘蛛
因为它是不可能让蜘蛛爬行和抓取所有页面搜索引擎优化人员必须努力吸引蜘蛛爬行如果他们想让页面更被搜索引擎爬。哪个比较页面将吸引蜘蛛?或者哪些页面被搜索引擎视为更重要吗?有五个方面如下所示。
(1)网站和页面权重
高质量工作old-qualified网站被认为有更高的权重爬行的深度将高得更多内部页面将被包括在内。
(2)页面更新速率将存储每次蜘蛛抓取页面。如果第二次爬发现页面第一次包括一模一样?这意味着页面没有更新和爬行爬行的频率会减少后很多次了。如果页面是经常更新蜘蛛访问将更频繁地爬和更多的页面将跟踪和同时爬得更快。
(3)导入链接是否外部链接或内部链接的搜索引擎网站为了被蜘蛛爬行的必须有导入链接进入页面的原则否则蜘蛛没有机会知道页面的存在。高质量的导入链接通常增加出口的爬行深度链接在页面上。
(4)单击主页上的距离
一般来说一个网站权重最高的主页吗?大部分的外部链接指向首页吗?最经常访问的蜘蛛也主页。单击主页上爬越接近越高页面重量和被蜘蛛爬行的机会就越大。
(5)URL结构页面重量是爬在它包含和迭代计算。然后上面提到的页面权重高有利于搜索引擎爬行。如何搜索引擎蜘蛛爬行之前知道这个吗?页面的权重呢?因此蜘蛛进行诉前工作除了链接和首页的距离。除了历史数据和其他因素短的原则浅的url也可以直观地认为网站上的重量是相对较高的。
4。