|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
一个是搜索引擎市场具有垄断地位的巨头,一个是颇具争议的闯入者,这场围绕搜索引擎的3B大战进入了第二个回合:钓鱼。
2 m, A0 e& M% T% s9 [" E6 g0 b几天前,百度工程师放出鬼节捉鬼的钓鱼策略,将争论引向一直以隐私安全为底牌的360。问题出在一个叫做Robots的协议上。360被指不遵守协议,直接用浏览器抓取用户浏览信息,可能致使用户信息泄露。3B大战的对手百度等互联网公司发出了要求员工卸载360浏览器的号召,搜狗CEO王小川也表示应遵守Robot协议,担心360在安全上做裁判又做球员。, Y6 G+ j: }% E( d
CNNIC最新的统计数据显示,360搜索覆盖中国网民比例已由上周的13.04%降为11.61%,覆盖人数由3420万降为3052万,近一周时间,损失用户达368万。( Q4 P+ g) |6 r( ^8 s( s/ |$ q+ |
3B大战第二回合,落在了浏览器端直接搜集网页信息的争议上。《每日经济新闻》在调查中发现,Robots协议被浏览器开发人员视为Google自己制定的协议规范,连行业规范都算不上,搜索引擎对用户隐私权的定义,目前还是空白。
; H6 J! v8 i7 d% g百度非原创式捉鬼\. ?; h9 |4 |' c' I$ X
8月31日,一则由百度工程师发布的微博引发了业内的广泛讨论。
6 Z% [8 W( ^4 m. m这位名叫赵明华的百度互联网数据研发部经理称,百度的工程师制作的几个特殊页面没有任何外链,由于搜索引擎爬虫只能通过链接爬行网页,因此这个网页是完全封闭的孤岛,不可能被搜索引擎抓取到。但令人意外的是,百度工程师试着在360搜索中输入以上关键词,结果这个网页赫然出现在搜索结果第一行,并可以直接点击访问浏览网页内容。但再换百度、谷歌、搜狗、搜搜等其他浏览器搜索相同内容,却无法返回相应网页。" N' F6 \7 x$ E ]4 j* l( D
为什么一个完全封闭的网页竟然能被360搜索引擎抓取到?赵明华的解释是,他曾用360浏览器打开过这个网页。在360浏览器的隐私策略中,注明了360安全浏览器会在用户的计算机上记录有关浏览历史记录的实用信息。
. ], [$ j2 M4 [$ [6 u, l百度认为,百度钓鱼流程揭示了360搜索存在安全隐患:只要用户通过360浏览器访问过一个网页,无论是私人账号信息,还是公司内网机密数据,都会被360浏览器记录下来,并被360搜索爬虫抓取、上传到360服务器。
9 X6 u' _; P4 w不过,360却有着自己的说法。360在官方微博上指出,百度以所谓的孤岛数据污蔑360泄露用户隐私。其实百度的做法很简单,只要通过外部链接引导360爬虫抓取页面,同时屏蔽其他搜索引擎,然后切断外链,就可以造成只有360搜索收录所谓孤岛的假象。
% v& s9 W/ G* h2 D; T: v& ~+ p9月2号,360董事长周鸿祎(微博)对此回应,这是百度在滥用Robots协议,阻碍360进入搜索市场。7 z/ a3 s+ b* C. v2 Q8 L; x
百度鬼节抓鬼的行为,在互联网界并非首例。2011年初,谷歌由于怀疑必应借鉴其搜索结果,也采取过这种做法。
5 t/ E3 n) N" z: L) x2010年10月份,谷歌注意到Bing的搜索结果越来越多地和谷歌重合,头条结果相同的趋势也越来越高,由此必应抄袭了他们的搜索结果。+ Z) `9 y* l$ x+ e1 O4 a
为了验证猜想,谷歌在去年12月进行了一场钓鱼行动。他们选择了100个异常钓饵进行手动搜索排名,将这些关键词的搜索结果指向毫无关联的页面。当时约20位谷歌工程师在电脑上使用IE浏览器来搜索这些关键词,然后通过IE在谷歌上搜索这些钓饵,诱使必应上钩。两周后,谷歌工程师再通过必应搜索当时的钓饵,预先埋下的结果就开始陆续出现在必应结果中,由此发现必应通过IE收集用户上网的隐私数据,直接记录上传了用户访问网址并随后放入搜索结果中。
+ N9 D3 g8 s# \1 T" j ^搜索引擎与商业网站博弈\: Z8 C3 k" G* c. f! W. P; c0 e
赵明华称,360绕过了Robots协议,利用浏览器记录并上传用户数据和上网行为,并形成自己的网址库,再用伪装和隐藏过的爬虫来抓取快照,生成搜索结果。/ a- C! \$ o, c! r1 h
那么,从浏览器端直接搜集网页信息是否正当?
' k4 X' ?& \! i* w. R/ ?实际上,Robots协议并非强制性法规,而是搜索引擎诞生后,互联网业界经过长期博弈,最终在搜索引擎与商业站点、公众知情权和用户隐私权之间达成的一种妥协。
8 _: d. V A& F. w6 f据《每日经济新闻》了解,早期的互联网主要是用户-网站模式。用户通过网站获取信息,网站通过吸引用户点击来实现广告收入。不过,当谷歌把搜索引擎变成一种成功的商业模式之后,很多网站原有的商业模式遭到了严重破坏。2 Z- N) e4 e% M! J* f, c4 A
为了维护自身的利益,一些欧美大型网站联合起来与谷歌谈判,要求谷歌有所为有所不为,于是就有了Robots协议。该协议的核心思想就是要求Robots程序不要去检索那些站长不希望被直接搜索到的内容,并将约束Robots程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。
9 N0 V7 a, b: h5 z9 a国内使用Robots协议最典型的案例就是淘宝网拒绝百度搜索。此外还有大量的用户注册、邮件等信息,都利用Robots协议来防止这些内容在互联网上被搜索到。
5 o$ v/ g2 B1 R3 y8 H, d$ K% Q不过,绝大多数中小网站需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。去年京东商城(微博)屏蔽一淘网抓取数据时,曾指责一淘网破坏了Robots协议。
2 S( b H `$ m, W6 J! V. E技术工程师Joey在接受《每日经济新闻》采访时表示,谷歌、百度是通过都是自己的服务器不停地在网上抓内容进行索引,而360的模式是让每个使用360浏览器的电脑成为360的蜘蛛爬虫,把浏览的内容上传到360服务器上做索引。
8 d" v+ g( T1 _Robots协议约束力几何?\
4 w4 O* C. R# Z6 V' R E7 |, }此前,在多次互联网大战中,360的隐私问题均被竞争对手列为质疑的焦点。; @4 x' L, T, @- e
两年前,奇虎360公司两名网络工程师利用360公司系统收集的用户信息,通过360服务器云计算后台破解了市政一卡通系统的后台密码,并远程为自己和3位同事的一卡通恶意充值2600元。2011年1月,360收集隐私数据被谷歌爬虫抓取,结果包括网民在百度搜索的关键字、淘宝购物记录、金蝶等企业内部财务网络数据等链接数据裸奔于互联网上。3 j9 K2 E% _' ]! M& }4 M4 `8 ^
对于此次业界的质疑,360认为纯系百度污蔑。360方面表示,其网站后台、订单等敏感数据在每个搜索引擎中都是存在的。百度通过人为设置钓鱼陷阱网页来污蔑360上传用户数据,目的是为了阻止360进入搜索领域,维护其市场地位。
; Q/ ?. I0 K, {: U不过,很多的中立行业观察人士认为,该事件的重心并不在口水仗,而是作为行业自律的Robots协议是否需要更强有力的法律约束?
. b; U" Z2 `& H- E9 }2 j资深互联网观察家洪波指出,搜索引擎无视Robots协议,直接抓取未经授权的信息数据,这样的行为如果不能从法律和监管上及时制止,将引发行业大乱。. {( A3 V9 Y( Z
鉴于国内像360和搜狗这样既做浏览器又做搜索的公司比较少,可以对比同样既做搜索引擎又做浏览器的巨头:谷歌。
+ h4 w4 R4 [0 U# v- D* r' P" L一位浏览器技术人员对《每日经济新闻》表示,谷歌的Chrome浏览器也会根据用户访问的历史记录在首页给出最常访问的网站,但不会优先出现在搜索结果中。
1 ]3 }- L" R+ {3 \5 r# B" N实际上,在3B大战进入第二轮时,国内互联网大佬的态度已经发生了转变。1 C# j2 \1 g+ H7 M, w
搜狗CEO王小川表示,欢迎360做搜索,行业更加开放,给网民更多选择。而在此之前,王小川对3B大战的态度是进攻百度防范360。% |- f6 y# K5 P
目前尴尬的是,Robots协议并没有上升到一定的高度。此前有消息称,GOV相关部门已找百度、360、搜狗各方了解事态进展,希望能够从中调停,并防范整个事件升级。从目前情况看,相关部门正在对360违反Robots协议的事件进行研究。; U' o' Q; }' h7 f$ N0 _
所谓Robots协议,其实就是谷歌自己制定的一个协议规范,并不是各大搜索厂商的共识或统一的协议,也从来没有任何一家国内搜索引擎服务商公开承诺遵守Robots协议或签署类似的协议或声明。所以说,Robots协议连个行业规范都算不上,更别说什么国际标准了,即便在美国,也只有Google把它当回事。上述不愿意透露姓名的浏览器技术人员表示。! {# [' l% H% f! _1 S U
云与端的较量\/ h4 v7 |: `3 a0 c' B# ]6 L
主打云概念的搜索巨头百度,与以客户端为武器的360交战,颇具深意。1 G& r ]6 I+ f' m/ w
事实上,百度之所以取得目前的搜索市场地位,一个很重要的原因就是其一直在布局中文内容平台,包括知道、百科、贴吧等。百度的护城河在云,本质上是一家媒体,其战略思路不是仅提供单纯的搜索,而是从具备分类、整理的搜索引擎转化为提供、组织内容的平台。
! h7 H' Q$ s6 N" B& d( C在单纯的搜索技术提高前景有限的前提下,提供大量的内容使百度具有了巨大的用户黏性和流量来源。即使用谷歌搜索,首页结果里也有大量的百度知道,百度百科(微博)与百度贴吧的内容。曹悦平表示。8 ^6 [. a' W2 p& J9 E' m/ m
事实上,早在2009年李彦宏就曾说过,百度不是搜索引擎,而是第一中文媒体平台。而在刚刚结束的百度一年一度的世界大会上,李彦宏首次将云存储、大数据智能、云计算三大核心云能力开放出来。
9 T( S- [3 A" |" X+ D' Z在曹悦平看来,在云端发力的好处在于,直接获取的大量内容和用户数据对后来者筑起了护城河。但百度多年来在客户端领域一直缺乏具有影响力的产品,这恰好是360此次进攻百度的机会。
6 r9 c ?0 u9 x, L% M相比之下,360的竞争优势完全在端靠浏览器和安全卫士来占领市场。1 O7 e/ ^) C: c; V" S; `6 Y
360的端模式,相对于百度的云模式,在产业链上处于下游。曹悦平指出,360的风险在于,一旦再出来一个黏性比它更大的客户端,比如Windows8如果内置了安全软件,那么360就危险了。
9 p- Z! v9 u& ~7 K5 f/ x' G2 G在新进入的搜索领域,360的份额正在迅速下滑。CNNIC最新的统计数据显示,8月27日~9月2日一周,360搜索覆盖中国网民比例已由上周13.04%降为11.61%,覆盖人数由3420万降为3052万,用户减少368万。无论用户覆盖率、搜索次数和PV占比,360搜索都远低于搜狗、搜搜等。同时数据显示,360搜索用户搜索次数和PV值比例仅为2.22%和1.47%,明显低于其他搜索引擎,表明使用360搜索的用户的使用频率和深度都很低。- J' q4 z3 r. C- M. J4 Y% X% [
|
|