中文分词技术是每一个想成为一名专业的SEO是必须了解的,因为只有掌握了分词思维,你才可以定位好搜索引擎喜欢,而且用户也喜欢的关键词,这样才能更好的设计自己所需要的关键词,包括核心关键词和长尾关键词等。下面深圳宝安SEO深圳SEO为大家整理一下分词技术,方便大家阅读。
1、中文分词的诞生和原理
我们知道,在英文中,单词之间是以空格作为自然分界符的,而且每个英文单词都有特定的含义,而中文里的很多字是没有确定含义的,只有和其他的字组合到一起才有确定的意思,而且还会产生不同的意思的理解,虽然英文也同样存在短语的划分问题,但是中文比之英文要复杂的多、困难的多。
对于一句话,人可以通过自己的知识来明白哪些是词?哪些不是词?但如何让计算机也能理解?其处理过程就是分词算法。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识 库,中文信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位,当汉字由句转化为词之后,才能使得句法分析、语句理 解、自动文摘、自动分类和机器翻译等文本处理具有可行性,可以说,分词是机器语言学的基础。
我们知道搜索引擎工作原理是把每个网页的内容按词来录入到数据库,比如你的文章标题是:“深圳宝安SEO提供免费的SEO解决方案”,那么搜索 引擎分把这个标题分成搜索引擎字典已经存储的词和用户常关注的词,比如:深圳、宝安、SEO、提供、免费、免费 SEO教程,免费SEO方案和SEO方案等等。
2、分词算法(如何分词)
a、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索“学校”。
分词示例
b、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索“学”字的时候,百度它自认的把“学习”也当成了一个关键词,所以出现“学习”这个词标红,这就是百度分词法:基于统计分词。
统计示例
c、基于字符串匹配
(1)、正(逆)向最大匹配法(由左到右的方向)
首先粗分,按照句子把文本切成一个一个句子,然后把每个句子切成单字,字典按照树形结构存储,最大匹配:一直匹配到没词可配;例如(刘强大地方法)正向分法:刘 强大 地方 法。反向分法:方法 大地 刘 强。而在这个词语当中“大地”不是一个词。
(2)、最少切分法
使每一句中切出的词数最小,还需通过利用各种其它的语言信息来进一步提高切分的准确率。或者这样理解,最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配
(3)、双向最大匹配法(进行由左到右、由右到左两次扫描)
正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法,就是向左右纵深挖掘比较匹配的结果值。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法,由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。
注意事项
切词原理:百度有专有词库(是不可分割的)比如杰出人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难) 。