找回密码
 注册
美国原生IP服务器推荐-Yv.gs
【阿里云】2核2G云新老同享 99元/年,续费同价做网站就用糖果主机-sugarhosts.comJtti.com-新加坡服务器,美国服务器,香港服务器
查看: 58|回复: 0

如何通过百度快照分析中文分词和百度排名

[复制链接]
发表于 2013 年 5 月 20 日 21:32:55 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。
' v; e# z2 P4 ]* K5 E3 I" A% `) b/ M% G% W% m: A3 _: w
  笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
) }6 Q) p* |: p  u1 L' ~7 c+ i, T9 r; k" r% ^. L/ J/ o
  之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。
$ Y  e" `% A* Q8 V
- Z: o; Q. U) p. v% F  当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。- G2 G1 ?6 x7 Z
5 ]0 m8 F6 g, k8 h8 }8 T. @9 P* H! Q
  百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。5 a! \* r$ S6 Q" `  \
1 B0 U: X. {: |4 B( O/ h7 Y. d" s
  1、短关键词
7 Y0 k, P- b9 T- Z; o( j
6 c# j* ?; K# b  以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。
% u& g6 F- h5 `& M, T) f" o% s. T) b; s* {$ \: u
  打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。. n: J, t+ B7 T/ \5 w* ~
4 @/ }8 N5 n# P9 O( P# U; x- u
  打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。* D: j" m' @" t* V, k: z
8 w# `- V3 U, s/ ^
  2、长尾关键词5 K7 ~6 q- e9 Z: h/ \0 M

& Q3 m& G& U9 @& y/ W/ `; o1 ~3 c  以“小说阅读网”为例,以下是首页搜索结果展示
6 a+ Z7 f, }6 h- ^
+ ^& h& D4 f" q3 N! m& g7 R  打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。1 f+ k5 d: h9 T. O

/ S  ^8 [3 x3 W0 V) j5 c0 u# `  但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。7 c6 B9 e! ^9 z
2 H; u9 w4 h: f/ F+ e% ^
  搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。, X/ t9 S* c' O0 k2 h* C
6 k+ w% `$ J4 T0 h$ S; V5 k
  我们或许可以看出两个情况:
) Z# E" F1 p- D% C0 e: A( S1 A9 @3 i3 y) p2 W: g
  1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。
& k8 |1 n, y6 p2 p! r- w1 ^' ~' x0 K" [
  2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。& A: I9 w0 L4 a1 `
/ _- i+ O: m! C' I% u( \+ y9 G
  百度快照颜色有何意义?
3 y) R3 j9 L5 P/ q& V7 g
# A0 U$ q' j/ d: I* ^+ W  C  另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。+ W1 @9 [5 X0 b8 o: k  X, L
5 C: a% V; d/ X  j+ _3 o
  笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。- i6 i+ h$ `/ N8 z5 Q6 x
3 f* p6 z6 {! l
  当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。
  r8 I' ]6 Q0 W+ |. R& V# N% ^: Y5 A$ E# `$ G9 c& ?1 c
Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
您需要登录后才可以回帖 登录 | 注册

本版积分规则

美国原生IP服务器推荐|Archiver|手机版|小黑屋|金光论坛

GMT+8, 2025 年 1 月 19 日 20:42 , Processed in 0.135001 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表