辛永宝SEO:百度专利关于重复检测-SEO基础知识

在（2011）之前一般是通过比较两个页面的内容和顺序来确认两个页面的相似度重复。这种方法能够计算得比较准确可时间复杂度太高SEO关键词可时间复杂度太高计算很费时间检测。通过对一个页面中的某些重要信息进行签名然后比较两个页面的签名来计算相似度网站优化来计算相似度这种方式比较简单高效计算速度比较快比较适合互联网这种海量信息的应用场景！

在百度专利《一种网页重复的判断系统及其判断方法》（申请号：201110031636.9）中使用了新的方法对网页库中的网页进行重复检测-SEO。的方法就是对网页进行分块然后获取正文块然后提取正文块中的文章基础知识。对对齐的一个或几个句子进行哈希签名并进行网页正文句子签名关于。

接着把正文句子签名相同的文章分为一个类我们称为网页集该网页集下的文章再进行下一步的判断这里还得再计算一些签名

1.网页正文的simhash签名

2.真实标题的hash签名

3.标签标题的hash签名

4.网页摘要的hash签名

5.网页内容的哈希签名

6.位置签名的哈希签名

7.评论信息的哈希签名

8.资源签名（资源签名是通过对网页中的图片资源声音资源视频资源或下载链接资源的url进行哈希签名运算获得）

9.URL文件名的哈希签名（url文件名签名是通过对网页的url中的文件名进行hash签名运算获得）

这些计算完了就可以进行下一步的判断了真重复的网页模仿：

1两个网页的真实标题签名相同专利。