百度勃利< <方法和设备识别页面上的话题> > 2011年要求有这样的方法识别主题
1. 阻塞在页面上阻塞合并一些标记。在html标记p跨度、字体、等常见标记用于文本和div桌子td等是块的标记。合并之后您可能希望简化页面的结构便于理解。
2。阻止合并时它属于一般水平这是一个典型的可以合并块(这个地方通常是不限于图片、文本、链接等等)。的合并段落。
3。字体格式信息行号、宽度、合并块的和地位是有区别的
4。主体是杰出的这里有一个相应的投票机制和算法例如:如果块位于web页面的中间行数和宽度大于预定阈值和文本和标题品牌品牌是不一样的所以它被公认为主体。
上面的方法是勃利中心但准确地说最初不同的行业有不同的区分规则。由于一些行业的特殊数据结构单词的数量不是主体。例如产品页面最多的领域领域可能是索引块。因此不同行业并不常见。了解