基于贝叶斯算法的垃圾邮件过滤技术综述.docx

资源描述

基于贝叶斯算法的垃圾邮件过滤技术综述.docx

《基于贝叶斯算法的垃圾邮件过滤技术综述.docx》由会员分享，可在线阅读，更多相关《基于贝叶斯算法的垃圾邮件过滤技术综述.docx（26页珍藏版）》请在冰点文库上搜索。

基于贝叶斯算法的垃圾邮件过滤技术综述.docx

基于贝叶斯算法的垃圾邮件过滤技术综述

继续教育学院

毕业论文

题目：

基于贝叶斯算法的垃圾邮件过滤技术综述

学生姓名：

李达夫

学号：

092028010027

班级:

CMU3097

专业：

指导教师：

邹政

2011年10月

基于贝叶斯算法的垃圾邮件过滤技术综述

摘要

现在电子邮件成为一种快捷、成本少的通信技术手段，很大地方便了人们的通信与交流。

但是，垃圾邮件的产生，影响了电子邮件的正常通信，占用的传输带宽，并对系统安全造成了很大的威胁。

因此，反垃圾邮件的研究问题已经成为具有重大现实意义的全球性的课题。

目前，对付垃圾邮件的主要方法和手段是通过反垃圾邮件立法和使用邮件过滤技术进行处理，现已经相继出现了多种邮件过滤技术。

常用的包括黑/白名单技术、基于内容的分析方法以及基于规则的方法等。

基于内容分析的技术正逐步进入邮件过滤技术当中，并且成为当前研究的热点，其中，基于内容分析的邮件过滤方法中的典型方法是基于贝叶斯算法的垃圾邮件过滤模型。

本论文对中文垃圾邮件的特点进行了比较系统的分析和研究，结合贝叶斯（Bayes）理论，构造基于贝叶斯分类的垃圾邮件过滤模型，在特征提取方面，采用互信息值的方法，在分类方法上，引入了适合本文的分类方法，并采用了一种更加适合于贝叶斯计算的表示方法。

关键词：

电子邮件；垃圾邮件；邮件过滤；贝叶斯理论

第一章绪论4

1.1引言4

1.2垃圾邮件的定义及其危害4

1.2.1垃圾邮件定义4

1.2.2垃圾邮件危害5

1.3国内外反垃圾邮件现状6

1.4研究目标与内容7

第二章垃圾邮件技术8

2.1.1电子邮件的概述8

2.1.2电子邮件的格式8

2.1.3邮件传送过程8

2.3.1客户端垃圾邮件过滤技术10

第三章基于标准邮件集构造垃圾邮件分类向量15

3.1标准邮件集15

3.1.1标准邮件集的背景15

3.1.2垃圾邮件和正常邮件的收集15

3.1.3标准邮件集的概述16

3.2基于标准邮件集的垃圾邮件分类向量16

3.2.1分类的实现16

3.2.2提取分类向量的过程17

3.3基于贝叶斯原理的过滤系统的实现19

3.4算法的实现19

第四章实验结果及分析22

4.1基于贝叶斯算法的过滤系统实验环境22

4.2基于贝叶斯算法的过滤系统总体结构图23

4.3实验结果及性能分析23

第五章总结与展望26

5.1论文总结26

5.2待改进的问题27

参考文献……………………………………………………………………………28

第一章绪论

1.1引言

伴随着电子邮件的迅速普及，越来越多的人使用电子邮件。

但是，电子邮件在为人们提供极其方便的传递信息的同时，也成为垃圾邮件、病毒、恶意程序或包含敏感内容邮件传播的重要载体，对系统安全造成了严重的威胁。

最早在1975年的RFC706“OntheJunkMailProblem”中就提到了垃圾邮件，首次关于垃圾邮件的记录可以追溯到1985年8月的一封以电子邮件发送的连锁信。

历史上比较著名的事件是1994年4月份，Canter和Siegel的法律事务所把一封信发到6000多个新闻组，宣传获得美国国内绿卡的法律支持。

这是第一次使用Spam（垃圾邮件）一词，用来描述新闻或电子邮件的主动性发布。

一些商人开始学习Canter和Siegel，为商业公司提供广告信件和发送服务。

1995年5月，网上出现了历史上第一个专用的垃圾邮件工具Floodgate，一次可以自动把邮件发给很多人，垃圾邮件越来越多与商业联系起来。

1995年8月，第一次有人公开贩卖200万个邮箱地址，各种垃圾邮件网站和组织也相继出现。

随着垃圾邮件的出现和泛滥，人们开始了反垃圾邮件的不懈努力。

1996年的1月，第一个反垃圾邮件组织“自由骑士”成立；1996年7月，著名的反垃圾邮件网站SpamHaus成立，例如使用REMOVE.TO.REPLY的工具来过滤邮件地址。

近几年来，垃圾邮件的泛滥是由于专门发送垃圾邮件的服务器大批涌现。

根据中国互联网协会反垃圾邮件中心的统计，2005年以来几乎每月我国都有100多台服务器被国外权威反垃圾邮件组织列入黑名单。

由于网络的开放性，垃圾邮件成为互联网上的一个日益严重的全球性安全问题，越来越得到社会大众和研究人员的重视和关注。

1.2垃圾邮件的定义及其危害

1.2.1垃圾邮件定义

垃圾邮件的英文名称为Spam或JunkMail，一般使用Spam一词。

很多组织或机构都给垃圾邮件下过定义。

例如，著名的反垃圾组织spamhaus提出，垃圾邮件具备以下两个特征：

（1）不请自来。

用户事先并未提出要求或者同意接收该邮件。

（2）批量性。

该邮件的副本在短时间内被大量发送给一个或多个用户。

2003年，中国互联网协会在《中国互联网协会反垃圾邮件规范》中对垃圾邮件作了以下定义：

（1）收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件；

（2）收件人无法拒收的电子邮件；

（3）隐藏发件人身份、地址、标题等信息的电子邮件；

（4）含有虚假的信息源、发件人、路由等信息的电子邮件。

从以上界定的邮件内容上看，目前可以将垃圾邮件归纳为具有以下几类特征的邮件：

带有商业广告性质的邮件；色情、暴力邮件；网上购物及赚钱的邮件；带有政治目的的邮件以及带有病毒的邮件等。

1.2.2垃圾邮件危害

垃圾邮件的泛滥给人们带来的危害和损失主要体现在以下几个方面：

（1）垃圾邮件给网络运营商造成了严重的损失。

大量的垃圾邮件在网络上传播，占用了网络带宽，导致网络通信质量下降，甚至是网络发生拥塞，干扰邮件系统的正常运行，根据2001年的一份研究报告显示，仅2000年垃圾邮件就给全球ISP造成了至少1000万美元的损失。

（2）垃圾邮件侵害了用户的隐私权。

由于垃圾邮件的内容不可控制，所以常常有很多有害的内容。

例如，很多垃圾邮件的附件中带有病毒，一旦收件人打开邮件，附件中的病毒就会对系统造成各种破坏。

（3）垃圾邮件给网络带来了各种安全性的问题。

垃圾邮件会极大的影响网络的安全和系统的稳定性，特别是那些利用别人的服务器转发邮件的情况。

因为目前大部分的垃圾邮件是利用第三方服务器转发。

这样做可以节省邮件发送者经费，但是会给被盗用者带来很多危险，如由于线路拥塞，造成系统的瘫痪。

他就会让被盗用的邮件服务器背上转发垃圾邮件的黑锅，影响正常的信件发送。

（4）垃圾邮件成了计算机病毒新的、快速的传播途径。

有些病毒利用浏览器的漏洞，以邮件的形式把自己伪装成补丁和安全升级的电子邮件发送给用户，只要用户点击该邮件，该病毒就会被激活。

由此可见，垃圾邮件的危害性是非常大的。

必须重视垃圾邮件的危害性以及开展反垃圾邮件工作的重要性，与垃圾邮件进行不懈的斗争。

1.3国内外反垃圾邮件现状

虽然垃圾邮件问题是最初从西方开始，以英文垃圾邮件为主，但是它越来越成为一个国际性的问题，很多学者和技术人员也开展了反垃圾邮件的研究工作。

2008年7月24日，中国互联网络信息中心（CNNIC）在京发布《第22次中国互联网络发展状况统计报告》显示，截至2008年6月底，我国网民数量达到了2.53亿，首次大幅度超过美国，跃居世界第一位。

与此同时，垃圾邮件也越来越深入网民的日常生活，电子邮件的使用率为62.6%，在网络应用中排名第六位。

只有不到40％网民使用电子邮件过滤软件，超过一半的网民没有使用过滤软件，数字显示网民对于防范垃圾邮件的意识薄弱。

我国反垃圾邮件的工作起步较晚，但发展很快。

2005年12月成立了一个政府资助的反垃圾邮件联盟，以应对越来越严重的垃圾邮件问题。

2006年2月信息产业部颁布了中华人民共和国信息产业部第38号令《互联网电子邮件服务管理办法》，明确规定了对制造和传播垃圾邮件者的处罚办法。

组织各网络服务提供者、电子邮件服务商起草制订并发布《中国互联网协会互联网公共电子邮件服务规范》；连续7次对外公布垃圾邮件黑名单IP地址；推出反垃圾邮件专业门户网站－中国反垃圾邮件中心（）等等一系列的具体而实际的反垃圾邮件治理工作，以减少垃圾邮件的泛滥。

国内外电子邮件系统相关各方都进行了大量的工作，包括在电子邮件系统中引入数字证书，建立各种加密邮件协议和标准，研究邮件防病毒技术和垃圾邮件过滤技术等；同时，不少国家都出台了电子邮件应用相关的法律法规，如电子签名法、反垃圾邮件立法等，对其进行约束和规范。

为了保证电子邮件在Internet上安全的运行，在理想状态下，应该有一个Internet电子邮件的安全标准。

所有的邮件作者和厂商都要执行它，那么我们在Internet上将具有安全的电子邮件。

安全电子邮件先后提出了不同的标准：

PGP、PEM和S/MIME。

目前国际上有两大类流行的邮件安全系统标准：

端到端安全邮件标准（PGP）和传输层安全邮件标准S/MIME。

随着我国政府电子政务的建设，中国加入WTO，越来越多的企事业单位会建设自己的邮件系统/自动化办公系统，提高无纸化办公，实现电子商务。

用户需要安全的电子邮件系统产品，能够迅速构建安全可靠、高性能的电子邮件系统，并且维护管理和使用都比较方便简单。

安全电子邮件系统有着广泛的市场前景。

1.4研究目标与内容

本文的研究目标是基于贝叶斯算法，构造垃圾邮件过滤模型，并对相关算法进行分析、比较、验证，最后基于改进的贝叶斯算法，实现对垃圾邮件的过滤。

本文的主要工作内容如下：

（1）对当前现有过滤技术发展现状、基本原理、基本方法和过程进行研究和分析，并对主要过滤技术的优缺点进行比较。

（2）将垃圾邮件样本集分类，基于已分好类别的垃圾邮件样本集进行研究，提取每个类别中垃圾邮件的关键词，该关键词是垃圾邮件中的敏感字符，是一个类别中能表达该类别文本内容的词条，即分类向量。

计算每个分类向量在各类别中出现的概率，即得到特征向量。

（3）本文采用互信息的方法进行特征选取，计算每个关键词的RMI值，利用RMI值确定特征向量的分量词条。

（4）解决基于向量空间模型的邮件文本信息表示、文本分类中的特征向量的选择等问题，在对实现过滤器的关键技术中，设计和实现基于贝叶斯算法分类的反垃圾邮件系统的改进的过滤系统，完成邮件过滤过程。

第二章垃圾邮件技术

根据用户对反垃圾规则的可控性，本章根据电子邮件的原理，分析电子邮件技术及相关协议的不足，列举了当前的一些常用的反垃圾邮件技术，以便用户合理的选择反垃圾邮件技术。

2.1电子邮件工作原理简介

2.1.1电子邮件的概述

电子邮件（简称E-Mail）又称电子信箱、电子邮政，它是—种用电子手段提供信息交换的通信方式。

它是全球多种网络上使用最普遍的一项服务。

这种非交互式的通信，加速了信息的交流及数据传送，它是—个简易、快速的方法。

通过连接全世界的Internet，实现各类信号的传送、接收、存储等处理，将邮件送到世界的各个角落。

到目前为止，可以说电子邮件是Internet资源使用最多的一种服务，电子邮件不只局限于信件的传递，还可用来传递文件、声音及图形、图像等不同类型的信息。

2.1.2电子邮件的格式

一个完整的电子邮件地址格式如下：

user@hostname.domainname即：

用户名@主机名.域名，@表示“（at）”的意思，@的左边是电子邮件用户的登录名，右边是完整的主机名，它由主机名与域名组成。

其中，域名由几部分组成，每一部分称为一个子域（Subdomain），各子域之间用圆点“.”分隔，每个子域都会告诉用户一些有关这台邮件服务器的信息。

2.1.3邮件传送过程

在通常的情况下，一封电子邮件的发送需要经过邮件用户代理MUA（MailUserAgent）、邮件传输代理MTA（MailTransferAgent）和邮件投递代理（MailDeliveryAgent）等三个程序的参与。

用户代理MUA接受用户输入的各种指令。

传输代理MTA软件负责处理所有接收和发送的邮件。

对每一个外发的邮件MTA决定接收方的目的地。

常用的MTA程序有Sendmail、Qmail和Postfix。

投递代理MDA程序则从信件传输代理取得信件传送至最终用户的邮箱。

当然，最终用户只能看到用户投递代理。

常见的投递代理包括procmail等。

整个邮件传输过程如下（如图2-1所示）：

2.2非技术手段反垃圾邮件

垃圾邮件正以每年5%的速度递增。

这意味着人们每周都会收到数千封不请自来的电子邮件，这些垃圾邮件不仅消耗了电子邮件网关75%的处理能力，使垃圾邮件使得网络线路繁忙，服务器性能大打折扣；而且也浪费了员工的大量时间和精力。

反垃圾邮件成为了当前急需解决的问题。

现在非技术手段有以下几种：

（1）立法模式。

立法模式是由国家和政府主导的模式，这种模式的基本做法是由国家通过立法的方法，从法律上确立网络隐私保护的各项基本原则与各项具体的法律、规定和制度，并在此基础上建立相应的司法或者行政措施。

例如，一旦确认某个团体或个人发送垃圾邮件，那他将面临法律的制裁与处罚。

针对目前的垃圾邮件泛滥的形势，反垃圾邮件立法的呼声越来越高，但是反垃圾邮件立法也面临一系列的问题。

如垃圾邮件的定义，即到底什么样的邮件是垃圾邮件。

其次就是法律的执行问题，即给予什么样的处罚才是得当的，而且如果缺少国际合作，即使发现来自境外的垃圾邮件，也无法制裁。

（2）行业自律模式。

行业控制方面主要是利用实时的黑名单服务来限制垃圾邮件的传播。

（3）利用垃圾邮件过滤技术。

近年来，有关垃圾邮件过滤技术的研究开始逐步兴起，相关的投入也越来越大，涌现了一大批相关产品，如果能从技术上解决垃圾邮件问题，那是最理想的垃圾邮件解决方法了。

2.3常用反垃圾邮件技术

一般来说，反垃圾邮件的方法有服务器端和客户端两种。

一般情况下，比较理想的方法是，在邮件服务器端直接将垃圾邮件屏蔽掉，这样不仅用户不会受到垃圾邮件的骚扰，而且服务器可以减少邮件的处理量，节约处理器资源和带宽流量。

但是，相当多的电子邮件服务提供商，并没有把这件事做好，特别是一些不够规范的免费电子邮件提供商（有些免费的电子邮件服务提供商甚至向别的厂商和公司收取费用直接往自己的免费用户邮箱里投放广告邮件）。

如果是这样，我们只能在客户端这最后的一道防线上去抵挡垃圾邮件的进攻了。

2.3.1客户端垃圾邮件过滤技术

在客户端可以对以下几种内容进行过滤：

（1）对发件人地址的过滤

这项技术就是依据发件人地址进行判断是否是垃圾邮件，例如不合法的邮件地址就会认为是垃圾邮件，如?

@163.net，和一些不合规范的邮件地址及空地址，如lakdjfhkiu}lkdfnehgugnuoi,lkjsfu#iern}。

这些邮件将被判断为垃圾邮件。

（2）对收件人地址的过滤

大家可能会说，收件地址不就是我的邮箱地址吗?

这还需要过滤?

当然，收件人地址也是可以用来发送垃圾邮件的。

这种情况就是考虑到邮件列表了，因为邮件列表在发送的时候，收件人地址只是一个列表的名称，所以，虽然有些邮件收件人不是你，但是，是以邮件列表的形式发送的，所以，你还是会收到的。

对于收件人地址的检查和过滤也是必要的。

（3）对邮件主题的过滤

这个应该算是比较重要的一个过滤了，一般一些垃圾邮件的主题还是有一些共同的特性的。

比如前一段时间闹的比较凶的SoBig.F病毒，一共以9个主题来发送病毒邮件，发件人和收件人地址都不确定，只要你过滤掉这9个主题，你就不会受到SoBig.F病毒所发送的垃圾邮件骚扰了。

（4）对邮件内容关键字的过滤

邮件内容的过滤一般以一个关键字词或多个关键字词为判断依据。

根据关键字词的命中率来确认这封邮件是否是垃圾邮件。

如果命中率超过了设置的阈值，就认为是垃圾邮件。

同时关键字词还可以是短语和短句。

（5）对邮件头信息过滤

邮件头信息是记录邮件投递过程的原始信息，这一点对垃圾邮件有着非常重要的意义。

虽然垃圾邮件发送者在发送垃圾邮件的时候，可以利用各种的工具随机伪造不同的收发件人、主题和内容，但是在邮件头信息中，这些邮件还是有一些共同的信息的，主要是IP、主机名、X-标识。

通过对这些信息的过滤，就可以把由同一地址发出的但收发信地址和主题随机的垃圾邮件从众多的邮件找出来。

2.3.2服务器端垃圾邮件过滤技术

在服务器端有以下几种过滤技术：

（1）基于黑/白名单的过滤技术

黑名单技术的原理是管理员收集、归纳和整理垃圾邮件的发件人地址，并制作成一个地址列表，即所谓的黑名单。

如果邮件的发件人与已知的垃圾邮件地址相同，就认为该邮件是垃圾邮件，并拒收该邮件。

该方法的缺点是垃圾邮件基本上都是采用了伪造和变换发件人地址的手段，单靠管理员的手工处理根本不可能构造出一个及时有效的黑名单列表。

白名单技术的原理与黑名单正好相反，其中列出了可信的邮件地址，凡是发件人地址符合其中地址的邮件，都会被认为是正常邮件而被放行。

该方法的缺点是如果用户希望收到来自某一地址的电子邮件，用户必须事先设置允许接收这一地址邮件的规则。

如果以前获得批准的客户改变了邮件地址，用户必须将新地址写入白名单，否则就收不到来自这位客户的电子邮件。

（2）实时黑名单技术

黑名单技术是人们收集垃圾邮件的地址，组成一个列表后应用到邮件服务器，邮件服务器在转发过程中丢弃那些地址来自黑名单的邮件。

黑名单技术的关键就是对黑名单列表的维护和更新。

现在垃圾邮件大量增加，如果靠使用者手动维护黑名单很难应付，针对这种情况，实时黑名单（简称RBL）技术应运而生，该技术结合DNS查询实现对黑名单的自动更新。

具体来说一个使用RBL技术的软件要确定某一IP地址是否应该被列入黑名单，会向黑名单服务器发出DNS查询，黑名单服务器查询黑名单后会将结果反馈给查询计算机。

目前国内支持地址黑名单的服务器比较多，很多邮件服务器软件都是默认支持实时黑名单技术，但从实际的角度来看，这种方式并不是非常有效。

该技术手段太单一，致命的弱点在于被放入黑名单的少量可疑主机数目和大量的垃圾邮件发送者不成比例，即使邮件服务器支持实时黑名单技术，依然会收到大量的垃圾邮件，无法全面封堵。

（3）基于静态内容过滤技术

静态内容过滤实际上只对“规矩”的垃圾邮件有效，这些规矩的垃圾邮件常常是网络营销的广告，有些更规矩的广告在邮件主题上提示“ADV：

”，这种邮件其实反而不是最主要防范的邮件，如果用户不想接收广告邮件，只需简单过滤邮件主题，发现ADV即拒收。

例如一些词汇“免费”被变成“免…费”或“免--费”,令垃圾邮件过滤防不胜防，同时导致了正常邮件如果使用了这些词汇也被拒绝。

因此，基于关键词的邮件内容过滤技术在实用中会导致很高的误判率。

但在某些需要严格控制邮件内容的场合，有一定的使用价值。

（4）邮件扫描技术

如果邮件服务器能够对接收的邮件进行扫描，并按照指定的规则对邮件进行匹配，一旦接收的邮件和垃圾邮件匹配成功，就认为本次接收的邮件是垃圾邮件并自动删除该邮件。

目前，邮件扫描检查三个方面：

邮件主题、邮件内容、邮件附件。

邮件主题扫描的实现比较简单，就是扫描接收的每一个邮件，对邮件主题的关键字进行过滤，凡是符合预定义关键字值的就认为是垃圾邮件。

这种匹配一般都支持正则表达式的匹配方法，从而提高了扫描的执行效率。

目前，市场上常用的反垃圾邮件软件提供此邮件主题扫描和邮件附件扫描功能，支持邮件内容扫描的反垃圾邮件软件很少。

在实施中很难对付会自动变化主题的垃圾邮件，带来了很高的误判率。

（5）基于贝叶斯分析垃圾邮件过滤技术

垃圾邮件的贝叶斯分析技术，就是利用贝叶斯定理，以已知垃圾邮件和非垃圾邮件为样本，通过对样本邮件内容的分析和统计，来计算下一封邮件可能是垃圾邮件的概率。

由此可以构造一种基于贝叶斯算法来实现垃圾邮件过滤。

可以根据特有的垃圾邮件和合法消息来进行定制。

由于贝叶斯算法预设的先验概率是通过经验来确定的，由此其预设值未必是最合适的，所以应增加自学习功能，通过不断校正预设的先验概率来提高邮件过滤的准确率。

贝叶斯技术克服了传统内容分析技术准确性低、误判率高的缺陷，不需要预先搜集和编制关键词表，可以实现对样本的自动采集和学习，贝叶斯过滤器是目前比较好的过滤器，我们将在本文第三章对它进行详细阐述。

（6）分布协作的内容指纹分析技术

有些邮件使用假的邮件地址、伪造了邮件头或利用了开放式转发功能发送的。

但每个收件人必须看了内容以后才知道该邮件是垃圾邮件，利用分布协作的内容指纹过滤方法对此类邮件有很好的过滤作用。

分布协作分析的主要原理：

从邮件中提取出可以代表内容的指纹数据，不同的内容会产生不同的指纹，用这些指纹代表邮件，全球的兼容用户会提交邮件的指纹，从服务器得到响应，以知道有多好封相同的邮件在全球传播，这样来识别邮件是否为垃圾邮件。

（7）反向域名验证技术

对收到邮件的来源IP地址采用反向DNS查找验证真实性，如果反向DNS查找提供的域与邮件上的来源IP地址相符合，该邮件被接受，如果不符合，系统认定该邮件是垃圾邮件予以拒绝，但由于现在很多反向DNS目录未被有效建立或无法正常建立，造成反向域名验证产生不可接受的高误报率。

（8）质询－回应技术

质询－回应技术是一种传统的身份识别技术，这种技术就是识别方向被识别方问一些只有这两方才可能知道正确答案的问题，通过被识别方回答的正误来判断被识别方的身份。

但这种技术要求反垃圾邮件系统预先和全部可能的发件人定下一个或多个秘密问题及答案。

很多系统会自动产生邮件，而这些自动产生邮件的系统，绝大多数都不具备回应质询的能力。

这就会是反垃圾邮件系统认为这些系统自动产生的邮件是伪装过的邮件，被错误的丢弃。

而要让这些系统增加回应质询的能力，需要做大量额外的工作。

第三章基于标准邮件集构造垃圾邮件分类向量

3.1标准邮件集

3.1.1标准邮件集的背景

国际上已经有一些英文的垃圾邮件样本集，如由希腊学者Androutsopoulos提供的PU系列和Ling-spam样本集。

PU样本集只保留了邮件的标题和正文的纯文本内容。

为了保护提供者的隐私，样本集中将邮件中的不同词汇用不同整数代替。

Ling-Spam由提供者收到的垃圾邮件和来自于语言学家列表（Linguistlist）的非垃圾邮件组成，因此Ling-Spam样本集的邮件内容没有像PU系列样本集一样加密。

除此以外，SpamAssassin的开发组也提供垃圾邮件和正常邮件样本集，与Ling-Spam有些类似，其正常邮件来自公众论坛。

3.1.2垃圾邮件和正常邮件的收集

普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件。

一般来说，收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件；收件人无法拒收的电子邮件；隐藏发件人身份、地址、标题等信息的电子邮件；含有虚假的信息源、发件人、路由等信息的电子邮件都被认为是垃圾邮件。

我们收集垃圾邮件样本的原则是：

（1）域中不存在用户所收到的邮件被视为要收集的垃圾邮件。

（2）域中真实用户收到但接受者认为不是他（她）所希望收到的也被视为要收的集垃圾邮件。

另外，只收集简体中文的垃圾邮件，即主题或者内容中包含至少一个国标（Gb2312）的汉字。

使用SPAMPOT，即垃圾邮件蜜罐技术来收集垃圾邮件。

｛SPAMPOT收录发送到xxx@的所有邮件（xxx可为任何字符串）｝。

这样可以收到更多、更广泛的垃圾邮件。

我们收集公开论坛所发表的最新帖子用来模仿正常邮件的主题和内容。

这样可以避免公布正常邮件

展开阅读全文