|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
很多站长抱怨百度算法反复无常,排名忽上忽下,鲜少有人去仔细的研究和分析百度排名背后的意义。笔者就先来抛砖引玉,谈一谈通过百度快照来分析中文分词和百度排名的关联。由于并非搜索引擎专业人士,只是通过快照现象得出的个人观察结论,不一定准确,只为广大站长起一个去认真观察分析的引子而已。
2 \' q1 h4 l* j# Z: Q& w8 ]& O- G# K
笔者觉得有必要先解释下中文分词的概念。百科定义:中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
2 b3 e6 u+ \8 B% S' R, M" ?* p0 Y4 A0 N) Y, q- M* d |) i
之所以会有中文分词,是因为汉语语法的特殊性。中文分词对于搜索引擎来说,最重要的就在于相关性排序,中文分词的好坏,常常直接影响到对搜索结果的网页排名,尤其是百度的中文分词对搜索排名的影响。据百科解释,现有的中文分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法这三类。7 X3 _2 R2 Z2 G) o: f
6 t* _0 r9 x. {" h) ^ 当然,百度的搜索结果排名并不是单纯的中文分词,也不仅仅是单一的一种中文分词,往往是三种分词算法的综合应用。0 ?- Y* }7 c* T/ V( |: t7 {
0 U- R* [# e; q0 P+ | 百度快照是个神奇的东西,可以解决或者了解网站以及百度的很多内容。除了可以快速查看某个无法打开或者打开速度特别慢的页面,还可以查看网页被百度收录情况,也可以用来识别一些虚假友情链接页面,当然也可以用来了解百度中文分词的一些情况。我们来看一下一些关键词的搜索结果的百度快照页面。+ @, w7 o: p: }/ G. z! V9 Q
8 G4 u3 [, G0 J8 r0 Z; {$ { 1、短关键词
3 j1 f ]( T) K7 c8 ~* w, z# U* m( ?/ u. ?
以搜索“百度快照”为例,从表面看,搜索结果中对“百度快照”的字符串匹配有完全匹配,也有不完全匹配,似乎是网站权重高排在首页。
$ F* a4 Z! T; H A
& c/ G/ e* ~' R6 ~ 打开第一个百度快照页面,可以看到“百度快照”四个字被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。
x, c% ?3 Q4 O9 F X, C" n
$ V5 l. f( G* x) b/ B 打开第二个百度快照页面,可以看到“百度快照”四个字同样被黄色标识,并且快照页面有“百度快照”关键字的正向最大匹配。, ]" \! D# S1 m! Z
% I7 _, D) N& G; S/ W' M
2、长尾关键词
8 Q; W/ T5 t) d) k
* Y4 `/ c8 b* S% X: O8 ~% f 以“小说阅读网”为例,以下是首页搜索结果展示
+ u7 V0 R' Z K2 j5 k+ [ {, I* S" X( T! V5 \, r" N# j
打开第一个百度快照页面,可以看到“小说阅读网”关键词被黄色标识,页面关键字是正向最大匹配。其它也大抵如此。
; _. G9 I- o$ t. _; b& u
6 ]1 D+ X5 y. [# h i 但也有并非是完全匹配词,打开第三个百度快照页面,“小说阅读网”五个字被黄蓝青三色分开标识,分别拆成“小说”、“阅读”“网”三个词,快照页面也没有对这五个字完全匹配。1 q: j# H- a/ [" x2 P# ^0 H, U
1 [3 d# `4 P. N5 |. u2 R6 h
搜索一下其它词汇,首页搜索结果大部分的百度快照页面也大都如此,不在此一一展示,大家平时可以多观察一下看看。( j- ~: V. B: d5 t0 u$ f/ z
. O+ Q/ O: o. K' E 我们或许可以看出两个情况:, T/ P9 \6 l8 v. J- }: c
$ [( Y- m3 U* L/ C
1、百度首页排名的网站有一个共同点:页面对于搜索的关键词基本是正向最大匹配。即排名首页网站的页面大多对于所搜索关键词正向最大匹配。
6 d" x6 r, v) J' Y! Q3 ~
" q$ w" x! l% ~- F5 q 2、对于中文分词,通过长尾词搜索,可以看出百度对于关键词或者说长尾词是如何拆分的。
. G2 k4 @4 j$ H# Q. J% k6 y0 l7 t0 r, F: E
百度快照颜色有何意义?" l2 t# w2 x8 _4 y9 x* @3 Y* R: @
' b" c- i* B, ?7 E Z2 s* Z" K
另外,还有个探索性问题,对于百度快照中关键词拆分中的颜色代表何意?一般有黄、蓝、青、红四种主要颜色。
5 _) R8 [1 ~, h' |* }* W# n5 H. l2 p( \" f N: ?9 f& ?
笔者分析:黄色代表所搜关键词的主关键词,即一个短语或者词组的侧重点,是用户搜索的主体;红色代表所搜索关键词的内容,是用户要搜索主体的重点;蓝色则是对主体的解释,起到辅助说明作用;青色一般是辅助词,可有可无。
; X8 \* D5 B+ d ~; q; a# y. }8 b4 ?9 p$ H8 g! Q6 C
当然这是笔者的一种猜测性分析,不正确之处大家可以一起交流。
3 S) i0 d+ y; ?& a) |, j' {4 H
5 \+ Z- _9 N T. f |
|