当前位置: 首页 SEO入门教程 正文

15、全套SEO入门教程:分词算法的原理

重庆SEO博客 |
2717

百度搜索引擎分词算法的原理

 

今天主要讲:分词算法原理。

分两个部分来讲:第一个知识点讲的是什么是分词技术、第二个知识点讲的是分词算法的基础运用。

首先我们先来讲第一个,什么是分词技术:分词技术就是把一段文字进行分词处理,简单来理解就是把一段文字切割,然后获得这里面的词语。举个简单的例子,比如说原文是”冬天的张家界很美”,那么分词之后可以分成”冬天的”和”张家界很美”。搜索引擎可以获得这些分后的词语,然后用于计算网页。所以这就是分词技术。

为什么需要用分词技术呢?因为搜索引擎它只能通过一些算法、计算的方式去计算网页的主题、得分。所以他需要通过分词技术来切割文字,从而计算这个网页。

接下来讲第二个,分词算法的基础运用。对分词算法最基础的运用有两种:第一种是用户搜索及匹配。举个例子,当我们在百度上搜索”空压机价格”时,百度会如何处理词语呢?首先它会把”空压机价格”进行切割,得到两个词语:”空压机”和”价格”。然后根据这两个词语进行匹配结果。比如说第一个是”空压机”,那么百度就会在互联网海量网页中搜寻关于空压机这样的页面主题,筛选出包含有空压机主题的页面。接着对比价格,即判断带有空压机主题的页面里是否带有价格如果没有价格,则被淘汰;只保留带有待价格类型的结果。然后,在评定这些结果中一个页面得分最高,就是给用户匹配出来的结果。

第二个分词算法的运用是网页主题计算。因为百度是机器,它没有办法去取一篇文章和人类一样理解文章意思。所以只能通过算法来计算这篇文章的主题。最基础的方式就是通过分词技来切割文字。今天课程就说到这了,关注燃灯教育SEO搜索学院公众号,获得更多的学习资料!

声明:原创文章请勿转载,如需转载请注明出处!