什么是网格分词算法?

来源:无  日期:2012-11-20 10:17:00
什么是网格分词算法?

网格分词算法是基于统计性的一种分词算法,它的算法思想是:首先构造候选词网格,利用词典匹配,列举输入句子所有可能的切分词语,并且以词网格形式保存;然后计算词网格中的每一条路径的权值,权值通过计算图中每一节点的一元统计概率和节点之间的二元统计概率的相关信息;东莞SEO最后根据搜索算法在图中找到一条权值最大的路径,作为最后的分词结果。
另外,还有一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,东莞SEO利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整从而极大地提高切分的准确率。
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括3个部分:分词子系统、句法语义子系统、总控部分。东莞SEO在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。
上一条:东莞网站建设给新站的一些建议
下一条:恭喜亿胜网络网站升级成功

相关内容