>
SEO优化技术>
百度原点算法:2013年5月
百度原点算法:2013年5月
SEO优化技术天津
2年前(2016-12-21)
119°C
昨天百度搜索团队工程师LEE发表文章说百度已经吸引了大批人组成原创项目团队Fontaine百度已经吸引了大批人组成原创项目团队并致力于构建原创环境推动中国互联网的发展。与此同时百度披露了原始识别系统的一些细节 - “原点”算法。

根据百度工程师LEE的说法百度在百度大数据的云计算平台上推出的原始识别系统可以快速实现所有中文网页的重复聚合和链接点关系分析。首先通过内容相似性聚合集合和原创性将类似的网页聚合在一起作为原始识别的候选集合;其次原始候选人的原始集合通过作者发布时间链接点用户评论作者和网站历史原始数百个因素如情况和转发轨迹用于识别和判断原始网页。最后价值分析系统判断原始内容的价值然后适当地指导最终排名。
同时LEE表示通过实验和真实的在线数据百度原创的识别“起源”算法取得了一些进展解决了新闻和信息领域的大多数问题。
百度网站管理员平台LEE的全文如下:谈谈原始项目。
首先为什么搜索引擎要注意原创性
1.1收集洪水
根据百度的一项调查超过80%的新闻和信息是通过机器手动转载或收集的从传统媒体报纸到娱乐网站花边信息从游戏策略到产品评论甚至从大学图书馆。还通知有些网站正在进行机器采集。可以说高质量的原创内容被海洋集合所包围搜索引擎在海中这既困难又具有挑战性。
1.2改善搜索用户体验
数字化降低了通信成本仪器降低了购置成本机器采集行为混淆了内容源以降低内容质量。在收集过程中无意或有意导致收集的网页内容不完整格式无序或额外垃圾问题不断涌现严重影响了搜索结果的质量和用户体验。搜索引擎重视原创性的根本原因是改善用户体验。这里的原创内容是高品质的原创内容。
1.3鼓励原创作者和文章
转载和收集转移高质量原创网站的流量不再具有原作者的名称将直接影响优质原创网站管理员和作者的收入。从长远来看它会影响原始创作者的积极性这不利于创新也不利于创造新的高质量内容。鼓励高质量的原创性鼓励创新并为原始网站和作者提供合理的流量以促进互联网内容的繁荣这是搜索引擎的一项重要任务。
其次收藏很狡猾很难识别出原来的
2.1收集原件并篡改关键信息
目前在大量网站分批收集原创内容后他们使用手动或机器方法篡改作者发布时间和来源等关键信息并伪装成原创。这种模仿对于搜索引擎来说是必要的以便适当地识别和调整它。
2.2内容生成器制造业伪原创
使用自动文章生成器和其他工具“原创”一篇文章然后一个引人注目的标题成本现在非常低而且必须是原创的。然而原创性是具有社会共识价值而不是制作一块根本不可行的垃圾可以被视为有价值的高质量原创内容。虽然内容是独特的但它没有社会共识价值。这种伪原创是一个需要识别和攻击的搜索引擎。
2.3网页差异化难以提取结构化信息
不同的网站有不同的结构差异html标签的含义和分布是不同的。因此提取诸如标题作者和时间之类的关键信息的难度也相对较大。在当前的中国互联网规模中要获得完整准确和及时的要求并不容易这部分将要求搜索引擎和网站管理员合作以便更顺畅地运行如果网站管理员通知搜索引擎页面的布局更清晰的结构将使搜索引擎能够有效地提取原始相关信息。
3.百度如何认识原始道路?
3.1建立一个原创项目团队来打一场长期的战斗
面对挑战为了提高搜索引擎用户体验为了使原创作者原创网站获得利益并推动中国互联网我们有大量人组成原始项目组:技术产品运营法律事务等。这不是一个或两个月的临时组织。我们准备打一场持久战。
3.2原始识别“原产地”算法
互联网是数百亿美元和数千亿个网页原始内容是从中挖掘出来的。可以说它是大海捞针。我们的原始识别系统是在百度大数据的云计算平台上开发的可以对所有中文网页进行快速重新聚合和链接指向分析。首先通过内容相似性聚合集合和原创性将类似的网页聚合在一起作为原始识别的候选集合;其次原始候选人的原始集合通过作者发布时间链接点用户评论作者和网站历史原始数百个因素如情况和转发轨迹用于识别和判断原始网页。最后价值分析系统判断原始内容的价值然后适当地指导最终排名。
目前通过我们的实验和实际在线数据“起源”算法取得了一些进展解决了新闻和信息领域的大多数问题。当然在等待“起源”解决的其他领域还有更多的原始问题我们坚定地走着。
3.3原始星火计划
我们一直致力于原始内容的识别和排序算法的调整。但是在当前的互联网环境中快速识别和解决原始问题确实是一个巨大的挑战。计算数据的规模巨大收集方法无穷无尽。方法和模板非常不同内容提取很复杂。这些因素会影响原始算法的识别甚至会导致判断错误。这时百度和网站管理员需要共同努力以维护互联网的生态环境。网站管理员推荐原创内容。搜索引擎通过一定的判断优先处理原始内容共同促进生态的改善鼓励原创性。这是“原始火花计划”。旨在快速解决目前面临的严重问题。此外网站管理员对原创内容的推荐将应用于“原始”算法这将有助于百度发现算法的缺点不断改进并使用更智能的识别算法自动识别原始内容。
目前原有的星火计划也取得了初步成效。第一阶段一些重点原创新闻网站的原始内容在百度搜索结果中给出了原始标记作者显示等并在排序和流量方面也取得了合理的改进。
最后原创性是一个需要长期改进的生态问题。我们将继续投资并与网站管理员合作以促进互联网生态系统的发展。创意是一个环境问题需要每个人共同维护。网站管理员做更多的原件并推荐原件。百度努力将继续改进排序算法鼓励原创内容并为原作者和原创网站提供合理的排序和流量。
转载请注明:天津seo教程_seo入门视频教程_seo培训教程»百度起源算法:2013年5月
或者分享(0)
百度于2014年12月推出基于LBS的杨树算法
百度用于打击链升级2014中超链接的算法
您必须登录后才能发表评论!