在百度 专利《一种网页重复的判断系统及其判断方法》(申请号:201110031636.9)中使用了新的方法对网页库中的网页进行重复检测-SEO。的方法就是对网页进行分块然后获取正文块然后提取正文块中的文章基础知识。对对齐的一个或几个句子进行哈希签名并进行网页正文句子签名关于。
接着把正文句子签名相同的文章分为一个类我们称为网页集该网页集下的文章再 进行下一步的判断这里还得再计算一些签名
1.网页正文的simhash签名
2.真实标题的hash签名
3.标签标题的hash签名
4.网页摘要的hash签名
5.网页内容的哈希签名
6.位置签名的哈希签名
7.评论信息的哈希签名
8.资源签名(资源签名是通过对网页中的图片资源声音资源视频资源 或下载链接资源的url进行哈希签名运算获得)
9.URL文件名的哈希签名(url文件名签名是通过对网页的url中的文件名进行hash签名运算获得)
这些计算完了就 可以进行下一步的判断了真重复的网页模仿:
1两个网页的真实标题签名相同专利。
2两个网页的网页内容签名相同
3两个网页的网页正文 签名(simhash)的不同数值小于6百度。
4两个网页的网页位置签名相同并且url文件名签名相同辛永。
5评论块签名资源签名标签标题签名摘要签名url
通过两两页比较可以得到真重复url的集合。一般来说如果这个真重复url集合中的网页的数量/整个网页集中网页的数量> 30% 则认为整个网页集都是真重复否则就是假重复。