百度站长学院前几天公布了一个案例里面提到一些细节特别值得站长重视。
它这个页面对爬虫爬取做的优化重复内容特别值得站长重视。
它这个页面对爬虫爬取做的优化直接将图片二进制内容放到了html中导致页面长度过长大小164K导致内容不被百度收录。
网站如果针爬虫做优化那么网页的长度最要在128K以内不要过长。不然爬虫抓取内容后页面内容过长被截断已抓取部分无法识别到主体内容最终导致页面被认定为空短而不收录。
言下之意这可能是百度技术缺陷导致如果网页在128K以上爬虫无法抓取就无法收录。如果各位站长的网站内容过长尽量删除一部分不太重要的信息以保证内容收录。
百度工程师建议:
1、不建议站点使用js生成主体内容如js渲染出错很可能导致页面内容读取错误页面无法抓取
2、 如站点针对爬虫爬取做优化建议页面长度在128k之内不要过长
3、针对爬虫爬取做优化请将主题内容放于前方避免抓取截断造成的内容抓取不全