当前位置: 首页 > SEO学院SEO知识

分享文章中关键词的提取与拓展方法

来源:未知 浏览量:304次

在自然语言处理领域处理大量的文本文件的关键是提取用户关心的问题。不管它是否一长一短文本或文本我们可以看到整个文本的主题通过几个关键词。同时网站权重评估标准我们可以看到整个文本的主题通过几个关键词。同时基于文本的建议还是基于文本的搜索依赖文本关键词也是伟大的。关键字提取的准确性直接关系到推荐系统的最终效果或搜索系统。

因此关键字提取是文本挖掘领域的一个重要组成部分。有三种方法:从文本中提取关键词监督semi-supervised监督和管理。监督关键字提取算法构造的关键词提取算法分为两类问题来确定一个词或短语在文档中是一个关键字。因为这是一个分类问题有必要预测提供标签培训。训练语料库是用来训练关键字提取模型。根据这一模型semi-supervised关键词提取算法需要提取关键字的文档。

构造关键字提取模型只需要少量的训练数据然后使用模型检查新的文本。关键字提取、手动过滤这些关键词和过滤关键字添加到训练集对模型进行再培训。无监督的方法不需要人工标注的语料库。一些方法用来找到更重要的单词在文本中关键词并提取关键字。监督文本关键词提取算法要求较高的劳动力成本。现有文本关键字提取主要采用无监督的关键字提取具有较强的适用性。

文本关键词提取的过程如下:无监督文本关键字提取流程图无人监督的关键字提取算法可以分为三类:关键字提取基于统计特性关键字提取基于词图模型和基于主题模型的关键字提取。关键词提取算法基于统计的文本功能。关键字基于统计特征的提取算法。关键字基于统计特征的提取算法使用统计信息在文档中提取关键词。

一般来说文本预处理得到候选词集然后从候选关键字得到通过特征值量化词集。的关键字提取方法基于统计特征的定量指标特征值。

目前常用的方法有三种:1。基于词特征量化的重量主要包括声音的一部分词频逆文档频率相对词频、词的长度等。2。基于语义特征量化方法是基于假设的句子在不同的位置有不同的对文档的重要性。一般来说第一个N的话最后一个N的话开始结束一篇文章的标题和介绍都是代表单词。这些话可以表达整个主题关键词。3.基于词联想信息功能。量词的协会信息指的是单词和单词之间的联系程度词和文档包括互信息值贡献依赖tf-idf价值等等。下面是一些常用的功能价值量化指标。语音的一部分分词和语法分析结果。大多数现有的关键字是名词或动名词。

一般来说名词可以表达的主要思想?这篇文章比其他词类。然而作为特征的指标量化演讲的一部分通常是与其他指标结合使用。词频表示多长时间这个词出现在文本中。一般来说我们认为更频繁的一个词出现在一个文本越有可能成为本文的核心词。词频简单计数出现在文本中的单词的数量。然而关键词获得只有通过词频有很大的不确定性。长文本移动端seo优化的注意事项关键词获得只有通过词频有很大的不确定性。长文本这种方法将会产生很多噪音。

一般来说这个词的位置是很有价值的词。例如标题和摘要本身的主要思想是本文作者总结了所以这句话出现在这些地方代表和容易成为关键词。然而由于每个作者都有不同的习惯写作方法和关键句子位置这也是一个非常广泛的方法获得关键字和通常不单独使用。互信息和互信息是信息理论的概念和指标来衡量变量的相互依存。

展开全部内容