<ins id="h37n9"><span id="h37n9"></span></ins>
<cite id="h37n9"><video id="h37n9"><menuitem id="h37n9"></menuitem></video></cite>
<cite id="h37n9"><span id="h37n9"></span></cite>
<var id="h37n9"><strike id="h37n9"></strike></var>
<cite id="h37n9"></cite><var id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></var>
<var id="h37n9"><video id="h37n9"></video></var><cite id="h37n9"></cite>
<var id="h37n9"><strike id="h37n9"></strike></var>
<var id="h37n9"></var>
<menuitem id="h37n9"><strike id="h37n9"></strike></menuitem>
<var id="h37n9"></var>
<var id="h37n9"><video id="h37n9"><var id="h37n9"></var></video></var> <cite id="h37n9"></cite>
<cite id="h37n9"></cite>
<var id="h37n9"><video id="h37n9"><menuitem id="h37n9"></menuitem></video></var>
<menuitem id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></menuitem>
<var id="h37n9"></var>
<menuitem id="h37n9"></menuitem>
<cite id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></cite> <cite id="h37n9"><span id="h37n9"><var id="h37n9"></var></span></cite><var id="h37n9"></var>
<cite id="h37n9"></cite>
<cite id="h37n9"><video id="h37n9"><thead id="h37n9"></thead></video></cite><menuitem id="h37n9"></menuitem>
<var id="h37n9"><span id="h37n9"></span></var>
<menuitem id="h37n9"></menuitem>

欢迎光临四川省巨高科技有限公司

联系我们|网站地图|巨高资讯

13880394188

网站优化 WEBSITE CONSTRUCTION

巨高科技专业从事网站优化的服务团队,专注提供成都网站优化、成都SEO、成都网站关键词优化、成都网站优化培训、成都网站优化公司、成都网站优化推广

当前位置:首页>网站优化 >网站优化技术 >探索百度搜索引擎算法技巧分析系列(二) >

探索百度搜索引擎算法技巧分析系列(二)

来源:成都网站建设 时间:2016-11-22 点击?#38382;?b id="click">1410次

  接着我?#24039;?#22238;的话题,百度搜索引擎算法技巧分析,接下来我们要讲的是中文分词技术,大家都知道百度是全球唯一最大的中文搜索引擎。下文针对百度对用户查询关键词分?#39318;?#20102;一个实践分析,希望对更多的seoer有帮助。百度这个搜索引擎对关键词如何切分呢?

  中文分词

  首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣?#19994;?#20999;割一下也是要讲条件的,哪能是个字符串就切割啊?你当百度是卖锯条的么?

  那?#35789;?#20040;样的字符串才满足被切割的条件呢?简单说来,如果字符串?#35805;?#21547;小于等于3个中文字符的话,那就保留?#27426;?#24403;字符串长度大于4个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉。

  怎么证明呢?我们向百度提交“电影下载?#20445;?#30475;看返回结果中标为红字的地方,不难看出来,查询已经被切割成<电影,下载>两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不?#25512;?#20102;,一定大卸八块而后快。我们来看看三个字符的情况,提交查询“当然择?#20445;?#30475;起来这个查询不伦不类,那是因为我希望看到这个字符串被切分为<当然,择>,返回结果看多少篇相关页面,翻到最后一页,发现标红的关键字都是” 当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询“当然择”看看,返回结果?#21482;?#26174;示多少篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的。

  但是我倾向于?#21368;?#30334;度对于少于3个字符的串没有切分,奥卡姆不是说了么“如无必要,勿增实体?#20445;?#24178;吗做无用功呢。那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种?#21069;?#29031;单词索引,一种?#21069;?#29031;N-GRAM索引, 至于索引的具体问题,以后在详细论述。

  下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是?#21495;卸?#19968;个分词系统好不好,关键看两点, 一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

  那么百度用的是什么方法??#19994;吶卸?#26159;用双向最大匹配算法。至于怎么推理得出的,让我们一?#35762;?#26469;看。当然,这里首先有个假设,百度不会采取比?#32454;?#26434;的算法,因为考虑到速度问题。

  我们提交一个查询“毛泽东?#26412;?#21326;烟云?#20445;?#21448;一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,

  那?#35789;?#20986;应该是:”毛泽东/?#26412;?华/烟云?#20445;?

  如果是反向最大匹配算法的话,那?#35789;?#20986;应该是:”毛/泽/东北/京华烟云?#20445;?

  我们看看百度的分词结果:”毛泽东/北/京华烟云?#20445;?#19968;个很奇怪的输出,跟我们的期望相差较多,

  但是从中我们可以获得如下信息:百度分词可以识别人名,?#37096;?#20197;识别?#26412;?#21326;烟云?#20445;?#36825;说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段: 第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出来,剩下了字符串?#21271;本?#21326;烟云?#20445;?#32780;?#21271;?京华烟云?#20445;?#21487;以看作是反向最大匹配的分词结果。这样基本说得通。为了证明这一点,我们提交查询”发毛泽东北?#20445;?#25105;们期望两种分词结果,一个是正向最大匹配<发毛,泽,东北>,一个?#24039;?#36848;假设的结果<发,毛泽东,北>,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等)。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。

  继续测验,提交查询“古巴比伦理?#20445;?#22914;果是正向最大匹配,那么结果应该是<古巴比伦,理>,如果是反向最大匹配,那么结果应该是 <古巴,比,伦理>,事实上百度的分词结果是<古巴比伦,理>,从这个例子看,好像用了正向最大匹配算法;

  此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询“?#26412;?#21326;烟云?#20445;?#27491;向最大匹配期望的结果是<?#26412;?#21326;,烟云>,而反向最大匹配期望的结果是 <?#20445;?#20140;华烟云>,事实上百度输出的是后者,这说明可能采用的反向最大匹配;

  从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;但是如果两者不一致,正向匹配一种结果,反向匹配一种结果,此时该如?#38382;?#22909;呢?

  从上面两个例子看,在这种情况下,百度采取最短路径方法,也就是切分的片?#26174;?#23569;越好,比如<古巴,比,伦理>和<古巴比伦,理> 相比选择后者,<?#26412;?#21326;,烟云>和<?#20445;?#20140;华烟云>相比选择后者。还有类似的一些例子,这样基本可以解释这些输出结果。

  但是仍然遗留的问题是:如果正向反向分词不一致,而且最短路径也相同,那怎么办?输出正向的还是反向的结果?

  我们再来看一个例子。提交查询“遥远古古巴比伦?#20445;?#36825;个查询被百度切分为<遥远,古古,巴比伦>,说明词典里面有”巴比伦?#20445;?#20294;是是否有”古 巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果,换查询为“遥远古巴比伦?#20445;?#27492;时被切分为“遥远/古巴比伦?#20445;?#36825;说明词典里面有” 古巴比伦”这个词汇,这说明了“遥远古古巴比伦”是正向最大匹配的结果。那为什么“遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果。

  当然还可以继续追问:如果切分后单字也一样多,那怎么办?最后看一个例子,查询?#24052;?#24378;大小?#20445;?#30334;度将其切分为?#24052;?强大/小?#20445;?#26159;正向切分的结果,如果是反向的会被切分为?#24052;?强/大小?#20445;?#36825;说明有歧义而?#19994;?#23383;也相同则选择正向切分结果。

  OK,看到这里可能头已经有些晕了,最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:

  首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果。如果单字也相同,则选择正向分词结果。

  百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,?#35789;?#30334;度采取比上述分词算法复?#26377;?#30340;算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面?#27426;?#35782;别出词典未登录词,逐渐扩充这个专门词典。如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题。

  到此,我们讲述了百度搜索引擎算法的查询处理及中文分词技术,技巧很多,希望seoer能够认真揣摩,在搜索引擎道路上?#38454;?#36234;顺畅。

最新快乐扑克3开奖结果
<ins id="h37n9"><span id="h37n9"></span></ins>
<cite id="h37n9"><video id="h37n9"><menuitem id="h37n9"></menuitem></video></cite>
<cite id="h37n9"><span id="h37n9"></span></cite>
<var id="h37n9"><strike id="h37n9"></strike></var>
<cite id="h37n9"></cite><var id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></var>
<var id="h37n9"><video id="h37n9"></video></var><cite id="h37n9"></cite>
<var id="h37n9"><strike id="h37n9"></strike></var>
<var id="h37n9"></var>
<menuitem id="h37n9"><strike id="h37n9"></strike></menuitem>
<var id="h37n9"></var>
<var id="h37n9"><video id="h37n9"><var id="h37n9"></var></video></var> <cite id="h37n9"></cite>
<cite id="h37n9"></cite>
<var id="h37n9"><video id="h37n9"><menuitem id="h37n9"></menuitem></video></var>
<menuitem id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></menuitem>
<var id="h37n9"></var>
<menuitem id="h37n9"></menuitem>
<cite id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></cite> <cite id="h37n9"><span id="h37n9"><var id="h37n9"></var></span></cite><var id="h37n9"></var>
<cite id="h37n9"></cite>
<cite id="h37n9"><video id="h37n9"><thead id="h37n9"></thead></video></cite><menuitem id="h37n9"></menuitem>
<var id="h37n9"><span id="h37n9"></span></var>
<menuitem id="h37n9"></menuitem>
<ins id="h37n9"><span id="h37n9"></span></ins>
<cite id="h37n9"><video id="h37n9"><menuitem id="h37n9"></menuitem></video></cite>
<cite id="h37n9"><span id="h37n9"></span></cite>
<var id="h37n9"><strike id="h37n9"></strike></var>
<cite id="h37n9"></cite><var id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></var>
<var id="h37n9"><video id="h37n9"></video></var><cite id="h37n9"></cite>
<var id="h37n9"><strike id="h37n9"></strike></var>
<var id="h37n9"></var>
<menuitem id="h37n9"><strike id="h37n9"></strike></menuitem>
<var id="h37n9"></var>
<var id="h37n9"><video id="h37n9"><var id="h37n9"></var></video></var> <cite id="h37n9"></cite>
<cite id="h37n9"></cite>
<var id="h37n9"><video id="h37n9"><menuitem id="h37n9"></menuitem></video></var>
<menuitem id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></menuitem>
<var id="h37n9"></var>
<menuitem id="h37n9"></menuitem>
<cite id="h37n9"><strike id="h37n9"><thead id="h37n9"></thead></strike></cite> <cite id="h37n9"><span id="h37n9"><var id="h37n9"></var></span></cite><var id="h37n9"></var>
<cite id="h37n9"></cite>
<cite id="h37n9"><video id="h37n9"><thead id="h37n9"></thead></video></cite><menuitem id="h37n9"></menuitem>
<var id="h37n9"><span id="h37n9"></span></var>
<menuitem id="h37n9"></menuitem>
声音分析软件 山东时时开奖视频直播 竞彩篮球专家每天推荐 纯禽大叔坏坏哒 上海时时预测软件下载 南方双彩下载 柒鑫棋牌拼天九 宝盈时时彩坑了多少人 福建时时彩开奖结果记录表 网络彩票托照片都是谁 华东东方六加一走势图 重庆时时官方开奖 瑞幸咖啡可以用现金吗 11运夺金一定牛 海南4十1开奖号码图 极速时时官方开奖
在线客服
在线客服
服务?#35748;?/div>
  • 13880394188