[痞子瑞SEO培训]:文本提取知识
互联网上有很多算法用于文本提取基于dom树文本长度优化网络文本长度投票视觉信息这些可以很容易理解但对于国内主要的搜索引擎百度我们必须找出他是否有这个方面。专利。
1.划分页面块是合并一些标签一般来说html标签pspan优化网络spanfont等是文本divtabletd等的常用标签是块的标签通过合并结构页面的内容可以简化和分析。
2.合并块当它们属于同一级别时属于可合并类型的块(类型不限于图片文本链接等)被合并这可以简单地理解为段落的合并
3.识别合并块的字体格式信息行号宽度和位置
4.识别主题有相应的投票机制和算法例如:如果该块位于网页中间则行数和宽度大于预设阈值优化网络则行数和宽度大于预设阈值标题字体大小和文本字体大小不同它被认为是主题。