百度分词的4个原理:
1基于理解:傻瓜式匹配小于等于3个中文字符百度是不进行切词的从而搜索“大学堂”分词。
2基于统计:百度把一个词标红的原因:标红的词一般是一个关键词你搜索“学”字的时候百度它自认的把“学习”也当变成一个关键词 因此出现“学习”这个词标红这就是百度分词法:基于统计分词分词技术。
3基于字符串匹配(百度的分词法:正向最大切词法)
最大与最小(最大匹配: 一直匹配到没词可配;最小匹配:匹配出词了就停止匹配再从另一个词开始匹配)):百度搜索“湖南大学堂屋顶”百度的一个分词算法我们把它当成一个黑盒子 我们通过一些输入关键字根据百度的输出结果来决定百度的分词算法seo。
4基于 专有词库。某些杰出人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难)。
分词工具(没有百度的收集了几个开源的分词工具) 的汉语分词系统
2HTTPCWS –基于HTTP协议的开源中文分词系统
3SCWS –简易中文分词系统
4PhpanAlysis-PHP无组件分词系统
5MMSEG4J
6盘古分词
7IKAnalyzer开源的轻量级中文分词工具包