常提到的搜索引擎的工作原理是在我们的培训。简单地说有三个步骤爬行爬行和预处理(因为指数是预处理的主要成分也有人们称这一步指数)排名。设计算法的排名问题我不会去的。在这里我将主要讨论爬行爬行和预处理。
1。通过蜘蛛程序爬行和抓取
每个搜索引擎首先会检查机器人。txt文件根目录的网站访问该网站时以获取信息的网站禁止爬行。一些url禁止爬不会包括搜索引擎而是一个现象需要注意的是百度目前显示一些网站显示百度蜘蛛屏幕下面的形式类似于淘宝。根据个人不完整的观察这种现象正逐渐成为常见的(特别是这并不是说百度不符合机器人协议包括打开快照这种类型的URL您会发现快照是空的)。
为了获得更多的信息蜘蛛会爬上的页面的链接页面。理论上蜘蛛可以通过链接爬行整个互联网上的信息但在实际操作中考虑页面的复杂性蜘蛛将两种深爬行爬行的方法来执行页面爬行。。为了避免重复爬行和抓取搜索引擎将建立两个网页地址库被发现但不爬和那些已经爬了参考和比较和爬页面进入原始页面数据库。到目前为止原始数据库的建立结束了。
第二预处理(索引)阶段
原始数据库建立之后搜索引擎会从网页中提取文本。当然除了文本显示在页面搜索引擎也将取代meta标签和flash等文件。锚文本alt标记和文本提取的其他部分。提取文本之后它将进入下一阶段:分词。
无论多么垃圾百度算法不可否认的是百度中文分词技术占主导地位的搜索引擎。文本在页面上爬搜索引擎将进行分词处理如将“苗条的姑娘”了小腿方法划分为两个部分:“瘦小腿”和“方法”。分词的方法通常有两种方法:字典和统计。字典不需要太多的解释;至于统计它是指相邻的单词之间出现的概率的计算通过分析大量的文本。概率越大就越容易形成一个单词。百度目前使用这两种方法的组合来实现最好的结果。
也许在这一点上每个人都会问有些字会发生什么经常出现在中国如“?”“?”“?”没有实际意义但经常使用。吗?答案是消除从而提高搜索引擎的计算效率。
浏览网页上的信息时我们会发现有些部分反复出现在网站上如“导航”、“广告”seo优化诊断如“导航”、“广告”等等。这部分内容不是实际的页面的显示内容。的意思。当然搜索引擎也会处理这部分的内容以过滤掉的最后文本的一部分内容包括页面。当然文字部分是过滤掉后搜索引擎也会比较最后文本内容显示在每一个网页删除重复内容显示它。
上述步骤后可以建立索引数据库。在这个时候该指数将分为两个阶段:指数和反向索引。正向索引可以简单地理解为一个数据库包括页面的URL的主键并使用分词处理的结果页面上的内容如下列图所示。
的指数我们可以发现它可以吗?