当前位置: 首页 > SEO学院SEO知识

辛永宝SEO:百度专利关于重复检测-SEO基础知识

来源:未知 浏览量:199次
在(2011)之前一般是通过比较两个页面的内容和顺序来确认两个页面的相似度重复。这种方法能够计算得比较准确可时间复杂度太高SEO关键词可时间复杂度太高计算很费时间检测。通过对一个 页面中的某些重要信息进行签名然后比较两个页面的签名来计算相似度网站优化来计算相似度这种方式比较简单高效计算速度比较快比较适合互联网这种海量信息的应用场景!

在百度 专利《一种网页重复的判断系统及其判断方法》(申请号:201110031636.9)中使用了新的方法对网页库中的网页进行重复检测-SEO。的方法就是对网页进行分块然后获取正文块然后提取正文块中的文章基础知识。对对齐的一个或几个句子进行哈希签名并进行网页正文句子签名关于

接着把正文句子签名相同的文章分为一个类我们称为网页集该网页集下的文章再 进行下一步的判断这里还得再计算一些签名

1.网页正文的simhash签名

2.真实标题的hash签名

3.标签标题的hash签名

4.网页摘要的hash签名

5.网页内容的哈希签名

6.位置签名的哈希签名

7.评论信息的哈希签名

8.资源签名(资源签名是通过对网页中的图片资源声音资源视频资源 或下载链接资源的url进行哈希签名运算获得)

9.URL文件名的哈希签名(url文件名签名是通过对网页的url中的文件名进行hash签名运算获得)

这些计算完了就 可以进行下一步的判断了真重复的网页模仿:

1两个网页的真实标题签名相同专利

辛永宝SEO:百度专利关于重复检测-SEO基础知识

2两个网页的网页内容签名相同

3两个网页的网页正文 签名(simhash)的不同数值小于6百度

4两个网页的网页位置签名相同并且url文件名签名相同辛永

5评论块签名资源签名标签标题签名摘要签名url

通过两两页比较可以得到真重复url的集合。一般来说如果这个真重复url集合中的网页的数量/整个网页集中网页的数量> 30% 则认为整个网页集都是真重复否则就是假重复

展开全部内容