找回密码
 注册
【阿里云】2核2G云新老同享 99元/年,续费同价华为云精选云产品特惠做网站就用糖果主机Jtti,新加坡服务器,美国服务器,香港服务器
查看: 260|回复: 0

搜索引擎人工干预神话的背后

[复制链接]
发表于 2011 年 11 月 20 日 14:40:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
首先需要说明的是,本人并不排斥搜索引擎的人工干预或人工审核,毕竟,任何搜索引擎都存在人工干预的情况,如Google前段时间对德国BMW网站的处理,便是标准的人工干预。对搜索引擎而言,合理的人工干预机制对搜索引擎智能算法的有效补充,通过更有针对性地打击Spam与作弊行为,能够保护并鼓励用户在规则允许的范围内操作,从而更有效地保证搜索质量,向搜索用户提供真正需要的内容。从这个角度上看,人工干预是搜索引擎保证其服务质量的必要且相当重要的手段。


但是,这种人工干预应当是建立在搜索引擎算法能够智能过滤绝大多数Spam手段与技术基础上的,只能是搜索引擎算法的补充,在理想状态下,人工干预更多地面向算法来不及调整以应对的新型Spam技术,或者是否作弊的界限不明确无法通过程序自动判断的情况,这时才需要人工对搜索引擎算法(暂时)无能为力的可能会影响用户搜索体验的行为做出反应。没有相应的可行自动算法处理为保障,人工干预的这些优势便不可避免地成为空中楼阁,成为永远的神话。

最近让人搞不懂的就是,某些在自己的算法上无力抵抗甚至最基本Spam手段或作弊方法的搜索引擎,开始大力鼓吹本属无奈之选的人工干预,将人工干预拔高到解决搜索引擎服务质量问题的灵丹妙药,不仅屡屡隐讳地将搜索引擎的人工审核、人工干预与DMOZ之类分类目录的人工审核等同起来,并进而吹嘘自己的搜索质量多么有保障,而且,甚至有更英明神武者表示,这样的人工干预代表着搜索引擎的发展方向,本来是其劣势的拙劣算法摇身一变成了让其登上搜索引擎之巅的必要基石。

不幸的是,这类论调得到了很多人的认可,这很让人奇怪。如果说神话般的“中文分词技术”能够深得人心并获得广泛支持,还有民族自豪感等因素起作用,尚可理解的话,这类人工干预的吹嘘则连一厢情愿的自圆其说也没有做到。

就象虽然与汽车相比,可以认为自行车更环保,但若只是因自己买不起汽车才四处鼓吹自行车的环保优势,并进而将自己标榜为有责任心的环保主义者来抢占道德上的制高点,就有些可笑了。退一步来说,如果只是自己阿Q似的意淫,虽嫌猥琐倒也无可厚非,毕竟总得允许自我感觉良好的人自慰,但是,如果就此而攻击其他开汽车的人便是环境的破坏者,或者认为自行车代表着先进的潮流强行要求别人也都来骑自行车就有些荒唐了。

搜索引擎人工干预 : 神话
搜索引擎人工干预的神话建基于人能够比机器更智能地判断网页质量,及判断网站/网页中可能存在的Spam或作弊手段,这在极端的理想状态下当然是成立的,不过,存在的问题便是,搜索引擎有能力实现这种理想状态的人工干预效果?

我们常常可以看到一些似乎言之凿凿的说法,对它们,也许最重要的并不是看它们是如何说的,而是如何去做。毕竟,很多时候,越是没有明确的定义和出发点的说法,越容易“放之四海而皆准”,越具有欺骗性。就像某种标榜“天人合一”的医学,其提出的“标本兼治”如何?简直太正确了,但如果细细分析一下,便会发现其中的“玄妙”,到底什么是“本”?虚无飘渺的阴阳五行六气脉络?靠什么来治?望闻切诊?可惜象华陀那样天生一副X光眼的神仙几千年才出一个,这样的情况就要考虑它所说的标本兼治是不是为连标也治不好所找的借口了。

有点扯远了,回到主题上来,对某个搜索引擎而言,要达到人工干预的理想效果,需要考虑以下问题:

该搜索引擎的算法能够在多大程度上自动处理各类Spam及作弊手段对搜索结果的影响?当然,这也不能仅仅看搜索引擎自己是如何吹嘘的,而是分析其搜索结果,尤其是那些没有人工处理痕迹的搜索结果质量。
该搜索引擎如何平衡Spider收录的自动化与人工审核?比如说该搜索引擎的人工干预在网页收录阶段即参与进来了么?如果是,那么,该搜索引擎通过什么机制保障网页收录的速度与效率?如果不是,比如说采取事后审核、删除不当网站的方式,那么,该搜索引擎通过什么机制保证及时发现这些不当网站,或者至少大部分不当网站?
该搜索引擎的人工干预机制以怎样的方式影响搜索结果排名?能否保持公正,如何避免人工干预中“人”的因素带来的不利影响如随机性与偶然性,如何避免因对规则与制度的不同理解包括人的审美观不同如有人喜欢环肥有人则喜欢燕瘦等造成的执行中的偏差?避免同样一个网站/网页由不同人员审核或干预时得到不同结果的情况?——当然,这是在该搜索引擎主观上希望公正、客观的前提下,至于搜索引擎是否还有其他目的情况则不是讨论之列。
当然,还有最重要的两个数字:Internet上每天新增/修改的网站/网页数量,或者为简单起见,仅仅考虑中文网站/网页数量也行,以及该搜索引擎实施人工干预的员工数量。事实上,对某些吹嘘得神乎其神的搜索引擎而言,其算法根本无力对绝大多数的Spam或作弊行为有所反应,所谓保证搜索质量的措施只能通过人工干预,但是,即便其员工均是精英中的精英,即使他们的工作效率是社会平均效率的一百倍甚至一千倍,靠它们投入的人力,来完成这样一项庞大的工作仍然是Mission Impossiable。
搜索引擎人工干预 : 现实
也许有朋友认为,就算搜索引擎的人工干预无法从根本上保证搜索质量,那么,通过惩罚过份的或者明显的作弊网站,——这对搜索引擎而言应该是能做得到的——杀鸡给猴看,从而保持对作弊网站的威慑力,不也同样能起到提高搜索质量的目的么?

当然,这在一定程度上可行的,事实上,包括很多吹嘘自己的人工干预多么多么牛的搜索引擎也正是这么做的,但是,这样究竟能在多大程度上保证搜索质量则存在很大的疑问。从最简单的角度,任何一项规则或制度、要求等,要想达到预想中的效果,必须在一定程度上遵守规则的“普适原则”,也即是说,如果A网站与B网站采用了同样的作弊手段,那么就应该受到同样的惩罚,而这一点在某些搜索引擎的人工干预中是不可能满足的,在巨大的潜在利益与极小的机会成本面前,所谓的威慑力只是一句空话,杀鸡根本吓不住猴,甚至会被猴围观乃至作为酒后谈资。

同时,也应该看到,某些搜索引擎之所以鼓吹人工干预,还有其他的考虑。为避免具体涉及特定的搜索引擎与网站,下面让我们用个无关的例子来看一看很多已经发生的情况:

近来某地一条等级还算不错的公路上限速40KM的规定引起不小的争议,当然我们无意在此讨论这个规定本身的对与错,而是看一看这样有怎样的好处:首先,降低执法的难度,事实上,在该公路上跑的车恐怕除了拖拉机外大都超过40KM的时事,几乎每辆车均事实违章,这就使得只要想抓,即便派个怎样的笨蛋上路执法,也能抓到一大把的超速者,当然,被抓到的倒霉蛋与总数相比仍是九牛一毛;其次,提供最大限度的执法灵活性,不就40KM么?Jc同志也都知道不合情理,都可以理解,只要你在被逮到时表现得好一些,Jc叔叔还能能够相当地宽宏大量滴,该怎么做自己心里有数吧?——如果自动管理,笨笨的电脑系统能做到像人这么善解人意?——中国人最大的优势就在于灵活性嘛,很多事都可以通过协调与做工作解决的;第三,当然,部分特权车辆包括执法者自己是可以不遵守这样的限速规定的。

让我们设想一下如果该条公路对超速行为实施某种自动化的管理会怎么样?比如说对所有超速的车辆拍照留下记录,并施以惩罚,那么,这样的规则还会出台么?抛却可能带来的各方抱怨,恐怕Jc同志所有的时间也只能放在收罚款上,而无暇继续为人民服务了吧?

某些搜索引擎的人工干预,实际上与上面的例子相比有过之而无不及。

搜索引擎提高技术能力才是关键
正如开头所说的,本人并不反对搜索引擎的人工干预,但是,要想保证搜索质量,所谓的人工干预必须有而足够的技术实力为保障,必须在算法上能够自动确定并排除大多数的spam与作弊技术,不然,就算搜索引擎真的打算提高用户的搜索体验,恐怕也只能让相关人员疲于奔命,搜索质量却依然一塌糊涂。

至于那些没有基本的技术能力实现相应处理,而不得不用人工干预方式的搜索引擎,当然在竞争中还是有其他招数可以保证其生存与发展的,如炒作牌、民族牌、政策牌等,不过,那就是另一个话题了。

Jgwy.Com - Free Web Hosting Guide & Directory In China since 2001! Jgwy.Net-Jglt.Net
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|金光论坛

GMT+8, 2024 年 11 月 19 日 01:43 , Processed in 0.127838 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表