的分类搜索引擎中文分词技术

我们讨论词算法可分为三大类:基于词典的分词方法和同义词典匹配;基于词频统计的分词方法和基于词的分词方法标记。

第一个方法使用词典匹配中国形态或其他中国对分词的语言知识如:正向最大匹配法、逆向最大匹配法、最小匹配方法SEO排名服务如:正向最大匹配法、逆向最大匹配法、最小匹配方法等。这种方法简单和高效的分词但中国语言现象是复杂的和丰富的。字典的完整性和一致性规则很难适应开放大规模文本的分词处理(如未登记的词语)。

搜索引擎中文分词技术的分类有哪些

第二种类型的基于统计的分词是基于词和词的统计信息。例如相邻字符之间的信息词频和相应的应用于分词同现信息陕西网站优化词频和相应的应用于分词同现信息因为这些信息是通过调查获得真正的主体因此基于统计的分词方法具有更好的实用性。

第三类型的基于字标注的分词构词。也就是说分词的过程被认为是一个问题标签字符的字符串。因为每个字符占用一定的构词位置(即引理)构建一个特定的词时如果是规定每个角色都有最多四个构词位置:即B(词)的开始M(这个词)E(后缀)和S(分别形成了的话)陕西网站优化E(后缀)和S(分别形成了的话)然后下面句子的分词结果(a)可以直接表示为一个逐字标签形式如(B)所示:

(?)分词结果:/上海/计划/ N /这/世纪/结束/实现/人均国内/ /生产/ /总价值五千美元。

(?)标记格式:海洋上层/ B / N E计划/ B / E / S / S的世界/ B期现在去年实际/ S / B / E / E / B的人平均内部/ B / E / E国家卫生生产/ B / B总额/ E / E 5 M / B千/我们/元/ E。/ S

首先需要解释说这里的“字符”Depi是不限于汉字。考虑真正的文本将不可避免地包含一定数量的非中文字符在本文中提到的“字符”还包括字符如外国字母、阿拉伯数字和标点符号。这些人物都是构词的基本单位。当然汉字仍然是最众多类型的角色在这个单元集。

的分类搜索引擎中文分词技术

相关信信

分类

最新信息