|
|
|
| |
|

道vs术

||
|

技术分为术和道两种。具体的做事方法是术,做事的原理和原则是道。很多具体的搜索技术很快会从独门绝技到普及再到落伍,追求术的人一辈子工作很辛苦,只有掌握了搜索的本质和精髓才能够永远游刃有余。另外,很多人希望介绍术是想走捷径,但是真正做好一件事没有捷径,离不开一万小时的专业训练和努力。

做事情的方法有道和术两种境界,搜索反作弊也是如此,在术这个层面的方法大多是看到作弊的例子,分析并清除之,这种方法能解决问题,而且不需要太动脑筋,但是工作量较大,难以从个别现象上升到普遍规律,很多崇尚“人工”的搜索引擎公司喜欢这样的方法。而在道这个层面解决反作弊问题,就要透过具体的作弊例子找到作弊的动机和本质,进而从本质上解决问题。

我们发现通信模型,对于搜索反作弊依然适用。在通信中解决噪音干扰的问题的基本思路有两条。

  1. 从信息源出发,加强通信(编码)自身的抗干扰能力。

  2. 从传输来看,过滤掉噪音,还原信息。

搜索引擎作弊从本质上看就如同对搜索排序的信息加入噪音,因此反作弊的第一条是要增强排序算法的抗噪声能力。其次是在其次是像在信号处理中去噪那样还原,原来真实的排名。学过信息论和有信号处理经验的读者可能知道这么一个事实:如果在发动机很吵的汽车里,用手机打电话对方可能听不清。但是如果知道了汽车发动机的频率可以加上一个与发动机噪音频率相同,振幅相反的信号,便很容易的消除发动机的噪音。这样,接听人可以完全听不到汽车的噪音。

搜索引擎的作弊者所做的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。

从动机上讲,作弊者无非是想让自己的网站排名靠前进而获得商业利益,而帮助别人作弊的人(SEO)也是要从中牟利的。掌握了动机就可以针对他们的动机进行防范。

网页搜索反作弊对搜索引擎公司来讲是一项长期的任务。作弊的本质是在网页排名信号中加入了噪音,因此反作弊的关键是去燥音,沿着这个思路可以从根本上提高搜索算法抗作弊的能力,事半功倍,而如果只是根据作弊的具体特征,头痛医头,脚痛医脚,这很容易被作弊者牵着鼻子走。

在欧几里得公理化的几何学中,他首先总结出5条简单得不能再简单而且互相独立的公设,也就是说任何一条公理都无法从另外4条中推导出来,而且这5条公理本身是不证自明的。接下来的几何学的一切定理都由定义和简单得无法证明的5条公理直接(仅以公理和定义为前提)或者间接地(除了公理和定义,还可以使用已经证明的定理)演绎得出。

法律,所有法律都可以从自然法中演绎出来。

文档信息