贝叶斯学习傻瓜图解

Posted on timeNovember 21st, 2007 by userKeith


这几天和几个网友在gtalk上聊天,发现越来越多的人在使用gmail了,甚至很多公司开始使用Google的gmail服务,Google霸业初露端倪,当众多公司使用Google Api的时候,我只能说很好,很强大,很可怕。

现在公司还在使用Alt-n公司的Mdaemon,目前使用9.51版本,不是最新的版本,除了会有一些垃圾邮件之外对于两千人以下的公司还是能满足需求的,这个邮件服务端软件我差不多使用了三年,但是也是最近刚弄清楚它的贝叶斯学习是怎么回事。

贝叶斯介绍

贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯过滤器是基于“自我学习”的智能技术,能够使自己适应垃圾邮件制造者的新把戏,同时为合法电子邮件提供保护。在智能邮件过滤技术中,贝叶斯(Bayesian)过滤技术取得了较大的成功,被越来越多地应用在反垃圾邮件的产品中

贝叶斯过滤算法的基本步骤

1. 收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。

2. 提取邮件主题和邮件体中的独立字符串,例如 ABC32,¥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾
    邮件集和非垃圾邮件集中的所有邮件。

3. 每一个邮件集对应一个哈希表,hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。

4. …………

via: 5dmail  

 

1:启用Public共享文件夹

2007-11-21_201756

2:设定使用IMAP协议来收邮件的账号权限

2007-11-21_201839

3:启用Archive to Public Folders

2007-11-21_201943

4: 启用Bayesian

2007-11-21_201910

5:通过Windows live mail 使用imap协议收取email,归类Spam和Non-spam.

6:The End .

tag



Trackback URI | Comments RSS

Leave a Reply


RSS feeds:

Search: