SEO:文本Extraction-SEO基础

有很多在互联网上的文本提取算法。一些是基于dom树笔墨长度投票具体化投票和视觉信息。所有这些可能会升值。然而对于百度来说一个重要的搜索引擎在中国我们必须找到他。没有这方面的勃利。

百度勃利< <方法和设备识别页面上的话题> > 2011年要求有这样的方法识别主题

1. 阻塞在页面上阻塞合并一些标记。在html标记p跨度、字体、等常见标记用于文本和div桌子td等是块的标记。合并之后您可能希望简化页面的结构便于理解。

2。阻止合并时它属于一般水平这是一个典型的可以合并块(这个地方通常是不限于图片、文本、链接等等)。的合并段落。

3。字体格式信息行号、宽度、合并块的和地位是有区别的

4。主体是杰出的这里有一个相应的投票机制和算法例如:如果块位于web页面的中间行数和宽度大于预定阈值和文本和标题品牌品牌是不一样的所以它被公认为主体。

上面的方法是勃利中心但准确地说最初不同的行业有不同的区分规则。由于一些行业的特殊数据结构单词的数量不是主体。例如产品页面最多的领域领域可能是索引块。因此不同行业并不常见。了解

相关信信