04月
11
2015

谈谈百度分词技术

作者:zhushican 发布:2015-04-11 分类:seo教程 阅读: 次 0条评论

查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。分词技术就是百度核心技术之一。

百度分词技术图解

1、正向最大匹配法(由左到右的方向)

2、分词测试例子:我/有意/见/分歧

3、反向最大匹配法(由右到左的方向)

分词测试例子:我/有/意见/分歧

据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。
首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。

关于搜索引擎分词技术,阿霸这次就先写到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些的日后有机会再向大家一一介绍。

 

除非注明,本站所有文章均为 zhushican 原创,转载请注明出处! 标签:百度分词技术  
« 上一篇下一篇 »

您可能还会对这些文章感兴趣!

谈谈百度分词技术:目前有0条评论