中文分词:网站优化工程师研究重点
中文分词算法是个大搜索引擎都在争夺的领域,从目前情况来看,在中文分词领域做得比较好的是百度,在《百度分词技术研究》一文中提及了百度与Google的分词技术差异,接下来,我们来分析一下中文分词在网站优化领域的作用,以及阐述为什么中文分词是网站优化工程师的研究重点的问题。
中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
与拉丁语系相比,中文的词与词组边界模糊,一段话,不同的人会有不同的解读。搜索引擎同样如此。曾经有个笑话,是讲古时候一老师去小气财主家做私塾先生说的一段话:无鸡鸭亦可无鱼肉亦可青菜一碟足矣。地主的解读是:无鸡鸭亦可,无鱼肉亦可,青菜一碟足矣。而私塾先生实际上要表达的是:无鸡,鸭亦可;无鱼,肉亦可;青菜,一叠足矣。当然这仅仅只是个笑话,古代中文是没有标点符号的。但就算是当代社会,某些话也不好分。例如:对随地吐痰者给予处罚。随地吐痰者不好界定是一个词还是一个短语。
中文分词实际上是一个将汉语机器化的过程,目的是使电脑能够识别一段话,一段词组的正确含义,从而方便人们通过电脑索引出我们想要的东西。目前,中文分词算法分为以下三类(来源:百度百科):
1、基于字符串匹配的分词方法
2、基于理解的分词方法
3、基于统计的分词方法
事实上,根据Adam的经验,百度目前的中文分词算法是综合了以上三点的结果。因此,我们每一次搜索的结果都可能存在细微差别。对于从事网站优化的网站优化工程师而言,了解并学习中文分词算法对于今后的网站优化,尤其是针对百度的网站优化工作将大有裨益。
现在的SEOer,总是喜欢将一些关键词堆积在title和描述当中,使得页面的人工痕迹太重。虽然不影响正常浏览,但是太过生硬的页面关健词堆砌始终不是正道,但如果我们能够把我搜索引擎的趋势,先人一步的做好分词研究,并将之运用到网站优化工作中去,于网站于个人都是一件好事。
本文网址:http://www.adamsem.com/views/90.html
Adam推荐阅读TOP10
2011-11-24理性的看待搜索引擎的每一次更新
2011-10-11搜索引擎关键词排名优化与网页相关
2011-10-06一直专注于用户体验的乔布斯走了
2011-08-12用户体验的悖论:Flash的跨平台与i
2011-07-15seowhy排名消失
2011-07-13对SEO需要重新认识
2011-07-10百度真的存在人工干预机制么
2011-05-09外链对网站优化的意义
2011-04-30搜索引擎的目标是什么
2011-04-22电商圈SEO比赛有何目的
最吸引网友眼球TOP10
2010-09-28网络品牌推广中的名人效应
2010-09-13东莞网络推广在企业中的定位问题
2010-10-08中文分词:网站优化工程师研究重点
2010-09-08百度分词技术研究
2010-09-27对网站优化(SEO)的一些看法
2010-09-14做SEO不能损害用户利益
2010-10-04看书学不会网站优化
2010-09-27给做网站推广的朋友们的建议
2010-06-05企业网站建设之我见
2010-06-22最好的文章SEO就是原创
随机阅读
2010-09-08网站优化应适可而止
2011-01-15我们拒绝低价SEO服务
2011-07-04RGB色值对应表
2010-07-01html5标准新特性
2010-09-24节后网站优化工作恢复
2011-03-05如何用好rel="nofollow"
2011-10-10淘宝网络营销只能赔本赚吆喝吗?
2010-08-10网页设计的两种风格流派
2010-10-09给那些立志于网站优化的新手的忠告
2011-04-15什么是ROI
2012-04-26SEO,还有没有前途?
2010-08-23像玩CS一样去做SEO
2010-12-13搜索引擎惩罚:降权、K站
2011-05-20百度520大更新的说明
2010-09-05几款开源CMS系统推荐
2011-01-04网站是做给谁看的
2011-06-22百度是如何实现地域搜索的
2010-06-27什么是关键词——SEO基础知识
2010-09-18百度搜索营销认证考试
2011-03-01我们有自己的坚持
