有很多在互联网上的文本提取算法。一些是基于dom树笔墨长度投票SEO排名服务投票和视觉信息。对百度来说一个重要的搜索引擎在中国我们必须寻找勃利如果他有这方面。
百度勃利< <主题识别的一种方法和设备页面> >在2011年要求这是如何识别内部主体
1。阻塞在页面上完成块的合并一些标签。在html标记p跨度、字体、等常见的文本标签div表td等标签块。合并之后您可能希望简化页面的结构便于理解。
2. 合并在块被认为是一般的水平他们是典型的合并(这个地方并不局限于典型图片文本链接等等)块合并你不妨理解段落的合并下降。
3。对合并后的块执行字体格式信息行号宽度和位置来区分
4。主体是杰出的这里有一个相应的投票机制和算法。例如:如果块位于web页面的中间行数和宽度大于预定阈值和文本和标题品牌品牌是不一样的它被公认为主体。
以上是本文勃利的方法关注的中心但准确地说最初不同的行业有不同的识别规则。一些行业不是主体因为特殊的数据结构。例如产品页面最多的领域。指的是块。因此有必要做不同的理解在不同行业