关于切词,通过淘宝看百度,google

作者:邓鹏 时间:April 10, 2010

  我不是第一批进入到SEO行业的,所以对于早期的SEO技术和一些东西没有那个时代的大神们了解的通透,但是这并不代表我没有追求SEO技术高峰的精神,反而正因为如此我一直更加努力的在研究搜索引擎及其相关的技术。今天给大家讲讲分词技术的研究思路。以淘宝搜索为例:

    首先,我们搜索“男女人字拖鞋”这个关键词。

   
http://search.taobao.com/search?shopf=newsearch&q=%C4%D0%C5%AE%C8%CB%D7%D6%CD%CF%D0%AC

    找到宝贝是264件。(数据可能因为有新宝贝上架或者宝贝下架而发生变化)

    按一般人的理解,“男女人字拖鞋”,他是一个完整的词,所以搜索出来的结果,应该是标题带有这个词宝贝,但是从搜索结果中我们发现,即使没有完全匹配这个词的宝贝,也出现在了搜索结果。比如下面的标题:(橘黄色为匹配词)

    1、外贸DIADORA迪亚多纳首款穴位按摩鞋底男女七夕情侣沙滩人字拖鞋
    2、夏季新款 超舒适金斯克按摩人字拖鞋 男女款凉拖鞋 沙滩鞋
    3、冲钻大甩买! 耐克运动休闲人字拖鞋情侣拖鞋男女款5色
    4、★09热卖★ 丰美纯黑男女情侣拖鞋 男女人字拖鞋 凉拖 凉鞋
    5、特价!四皇冠AF 男女 人字拖鞋 情侣沙滩鞋 -1 (全网最低)
    6、香港代购 BIRKENSTOCK勃肯鞋 男/女鞋 人字拖鞋 BN043381M
   7、外贸正品 意大利 DIADORA 迪亚多纳 男女人字拖鞋

    从以上7个标题,我们可以看出点什么了。
    也就是说,“男女人字拖鞋”这个词,在淘宝的搜索系统看来,他不是一个完整的词。他会对其进行切分。
    按照上门橘黄色的词,我们大概可以看出。
   “男女人字拖鞋”,被切成了“男女”,“人字拖鞋”两个词。

    为了验证我们的想法是不是正确,我们搜索“男女 人字拖鞋”,看看结果是不是和搜索“男女人字拖鞋”一样。

   
http://search.taobao.com/search?shopf=newsearch&q=%C4%D0%C5%AE+%C8%CB%D7%D6%CD%CF%D0%AC

    我们发现,搜出来的结果,还是264个。暂时地,我们没有去查看宝贝的排名是否两次都一样。

    假如“男女人字拖鞋”,被切成了“男女”,“人字拖鞋”两个词。
    那么“人字拖鞋男女”,是不是也会被切成“男女”,“人字拖鞋”两个词呢?

    为了证实我们的猜测,我们搜索“人字拖鞋男女”。
   
http://search.taobao.com/search?shopf=newsearch&q=%C8%CB%D7%D6%CD%CF%D0%AC+%C4%D0%C5%AE

    这次搜索出来的结果,还是264个。
    接着,我们再试试“人字拖鞋 男女”。
   
http://search.taobao.com/search?shopf=newsearch&q=%C8%CB%D7%D6%CD%CF%D0%AC+%C4%D0%C5%AE

    这次搜索出来的结果,还是264个。

    这个时候,我们基本可以断定,在淘宝的搜索系统眼里
   “男女人字拖鞋”=“男女 人字拖鞋”=“人字拖鞋 男女”=“人字拖鞋男女”

    而从搜索出来的结果我们可以发现下面这个标题
   香港代购 BIRKENSTOCK勃肯鞋 男/女鞋 人字拖鞋 BN043381M
    按我们一般的想法,“男/女”是不等于“男女”的,那为什么会出现在搜索结果呢?

    第一种可能,就是,“/”,在淘宝搜索系统里,是不作为匹配词的。
    也就是“男/女”这个词,在匹配的时候,等于“男女”。

    第二种可能,就是“男女人字拖鞋”,被切成了“男 女 人字拖鞋”。

    为了验证我们的这个猜想,需要搜索一下“男 女 人字拖鞋”。
   
http://search.taobao.com/search?shopf=newsearch&q=%C8%CB%D7%D6%CD%CF%D0%AC+%C4%D0%C5%AE

    这次搜索出来的结果是397件。
    在搜索结果中,我们发现了这样的标题
   夏季凉拖 生吹气橡胶超软拖鞋|拖|凉鞋|沙滩人字拖鞋
    而在之前的搜索中,我们并没有发现这个结果。
    所以,我们可以断定:
  “男女 人字拖鞋” 不等于 “男 女 人字拖鞋”。
    也就是说,“男女 人字拖鞋”中的“男女”,并没有被切分为“男 女”。
    也就是说,“/”,在匹配中,是被忽略的。
    但是这个时候,我们还是有疑问:
    为什么“男女人字拖鞋”会被看做是“男女 人字拖鞋”,而“男女”,不被看做是“男 女”呢?

    这涉及到分词问题。淘宝的搜索,本身应该有一个词库。
    当我们搜“男 女 人字拖鞋”时,是“男”,“女”,“人字拖鞋”,三个词。
    而当我们搜“男女 人字拖鞋”时,是“男女”,“人字拖鞋”,两个词。
    在我们搜“男 女 人字拖鞋时”,空格起到了分词作用,因为“男”,“女”,已经是不能再分了。
    那为什么“男女人字拖鞋”,会自动分成“男女 人字拖鞋”,而不是“男 女 人字拖鞋”呢?
    这就是词库的作用了。
    很明显“男女”这个词,比“男” “女”,是更稀有的词。所以,分词的时候,直接选了“男女”。
    也就是说,淘宝的分词过程可能是这样的:
   “男女人字拖鞋”,首先会被切成“男”,“女”,“人”,“字”,“拖”,“鞋”。
    然后进行第二次切,比如可能切成“男女”,“人字拖”,“拖鞋”
    最后是“男女” ,“人字拖鞋”。

    然而,为什么最终是切成了“男女”,“人字拖鞋”呢?

    这就涉及更深层次的分词规则了。。此处不在讨论~~~~
 

    团队成员kartal首发,转载请注明北京SEO团队kartal,QQ:6973529,E-mail:dengpeng1#163.com(把#替换成@)


文章排行:
用户点击排行
用户评论排行
随即推荐文章


  • quote 1.admin
  • 支持一下 切词专家 邓鹏
    由 admin 于 2010-4-10 13:50:52 最后编辑
  • 2010-4-10 13:45:35 回复该留言
  • quote 3.fangxiaoan
  • 曾经我不会去切 也不会去分,但是有一次无意发现了之后试试了,没有想到还真的是这样。在巩固一次,相信对我有好处 比如:北京热门手机搜索 是不是就分成了 北京 热门手机 搜索,应该热门手机不要分吧 不然就搜的不是手机了吧 ,迷糊
  • 2010-4-11 11:20:41 回复该留言


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。