263企业邮箱 > 反垃圾功能

自动回复的垃圾邮件--"反垃圾"攻防日志连载(5)

上期我们提到,263智能内容分析技术主要攻克的是那些外表没有丝毫破绽、让人难以根据信封和邮戳辨别真伪的垃圾邮件。那么,给邮件“打分”的依据就成为一个做出判断的重要基础。这个依据又从何而来呢?这就是本期要谈到的内容——样本库的收集。

首先,你们要明白:样本库是一个动态的概念。它的内容是随着新垃圾邮件内容的出现不断更新和扩充的,也就是我们所说的‘自学习能力’。”263反垃圾攻防实验室负责人Tony一脸严肃,“只有样本库是与时俱进的,才能适应不断演进的垃圾邮件,提高判断的准确率。” 。

“那么,这个样本库是如何实现自学习的呢?”。

听到我这个还算靠谱的问题,Tony满意地接着解释道:“在样本库的采集上,263主要采取两种渠道来获取。第一种是通过用户端举报来进行的采集:用户在使用webmail(即:通过mail.263.net网站接收邮件)的时候,如果认为某封邮件是垃圾邮件,可以在网站上点击‘举报垃圾邮件’按钮,直接将其举报到垃圾邮件样本库。当然,能够主动这么做的用户为数并不多。因此,更多的还要依靠样本库的自学习能力,而这种学习是通过“探针邮件”实现的。”。

“探针邮件”就是我们在系统里面故意部署大量的陷阱,这些虚拟邮件地址的拼写非常短、都是容易被猜到的邮箱,比如liming@263.net之类的(当然我们也会有意公布一些)。这样的邮箱并没有人在真正使用,因此只要有邮件发到这些邮箱,就可以直接作为垃圾邮件被收录进样本库。

这些邮件汇集到样本库后,还需要进行一番“解剖”和“深加工”。首先,样本库会对这些邮件的特征进行分解,比如词意的拆解之类的工作,将有嫌疑的特征进行提取,再补充到垃圾邮件的样本库中来,进而自动进行系统端过滤器的升级,加强整个反垃圾邮件系统对新垃圾邮件特征的认识。这样,就完成了一个自学习的过程。当然,整个过程也可以人工干预,以验证其准确性。

不管是探针邮件的侦测,还是用户的举报,都可以称作是一种主动的反垃圾行为。它改变了过去一直以来防不胜防、疲于奔命的被动局面,也是263反垃圾技术的独特之处。那么,就用户端而言,还有哪些主动防御的工作可以帮助用户实现更有效的垃圾邮件过滤呢?敬请关注下期内容:《智能分析:用户参与,过滤更彻底》。

“反垃圾”攻防实验室友情提示:以往在进行反垃圾邮件时,我们更多的是在进行一种被动的防御。而263的智能内容分析技术则彻底变被动为主动,大量的探针邮件,和一个能够通过自学习不断完善的垃圾样本库,彻底改变了过去邮件服务商只能被动接受用户投诉的现象,主动进攻。

第(1)期  第(2)期  第(3)期  第(4)期  第(5)期


关闭