package cn.zhf.test;
import java.io.*;
import java.util.*;
public class SpamMailDetection {
public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail";
public static final String SPAM_PATH = BASE_PATH + "\\train_illegal.txt";//垃圾邮件语料
public static final String OK_PATH = BASE_PATH + "\\train_legal.txt";//正常邮件语料
public static final String EMAIL_PATH = BASE_PATH + "\\to_judge.txt";//要判别的邮件
public static final String DICT_PATH = BASE_PATH + "\\dict.txt";//分词用的词典
public static void main(String[] args) {
SpamMailDetection smc = new SpamMailDetection();
//<word,(word/NonSpamCorpus)>
Map<String, Double> okmap = smc.createMailMap(OK_PATH);
//<word,(word/SpamCorpus)>
Map<String, Double> spammap = smc.createMailMap(SPAM_PATH);
Map<String, Double> ratemap = smc.createSpamProbabilityMap(spammap, okmap);
double probability = smc.judgeMail(EMAIL_PATH, ratemap);
if (probability > 0.5)//概率大于0.5则判定为垃圾
System.out.println("It's an ok mail.");
else
System.out.println("It's a spam mail.");
}
/**
* 给定邮件,分词,根据分词结果判断是垃圾邮件的概率
* P(Spam|t1,t2,t3……tn)=(P1*P2*……PN)/(P1*P2*……PN+(1-P1)*(1-P2)*……(1-PN))
*/
public double judgeMail(String emailPath, Map<String, Double> ratemap) {
List<String> list = segment(readFile(emailPath));
double rate = 1.0;
double tempRate = 1.0;
for (String str : list) {
if (ratemap.containsKey(str)) {
double tmp = ratemap.get(str);
tempRate *= 1 - tmp;
rate *= tmp;
}
}
return rate / (rate + tempRate);
}
/**
* 从给定的垃圾邮件、正常邮件语料中建立map <切出来的词,出现的频率>
*/
public Map<String, Double> createMailMap(String filePath) {
String str = readFile(filePath);
List<String> list = segment(str);
Map<String, Integer> tmpmap = new HashMap<String, Integer>();
Map<String, Double> retmap = new HashMap<String, Double>();
double rate = 0.0;
int count = 0;
for (String s : list) {
tmpmap.put(s, tmpmap.containsKey(s) ? count + 1 : 1);
}
for (Iterator iter = tmpmap.keySet().iterator(); iter.hasNext();) {
String key = (String) iter.next();
rate = tmpmap.get(key) / list.size();
retmap.put(key, rate);
}
return retmap;
}
/**
* 建立map,<str,rate> 邮件中出现ti时,该邮件为垃圾邮件的概率
* P( Spam|ti) =P2(ti )/((P1 (ti ) +P2 ( ti ))
*/
public Map<String, Double> createSpamProbabilityMap(Map<String, Double> spammap,
Map<String, Double> okmap) {
Map<String, Double> retmap = new HashMap<String, Double>();
for (Iterator iter = spammap.keySet().iterator(); iter.hasNext();) {
String key = (String) iter.next();
double rate = spammap.get(key);
double allRate = rate;
if (okmap.containsKey(key)) {
allRate += okmap.get(key);
}
retmap.put(key, rate / allRate);
}
return retmap;
}
/**
* 中文分词
*/
public List<String> segment(String str) {
Map<String, Integer> map = loadDict();
List<String> list = new ArrayList<String>();
int len = str.length();
String term;
int maxSize = 6;
int i = 0, j = 0;
while (i < len) {
int n = i + maxSize < len ? i + maxSize : len + 1;
boolean findFlag = false;
for (j = n - 1; j > i; j--) {
term = str.substring(i, j);
if (map.containsKey(term)) {
list.add(term);
findFlag = true;
i = j;
break;
}
}
if (findFlag == false)
i = j + 1;
}
return list;
}
/**
* 加载词典文件
*/
public Map<String, Integer> loadDict() {
Map<String, Integer> map = new HashMap<String, Integer>();
String[] str;
try {
BufferedReader br = new BufferedReader(new InputStreamReader(
new FileInputStream(new File(DICT_PATH)), "gbk"));
String tmp = "";
while ((tmp = br.readLine()) != null) {
str = tmp.split("\t");
map.put(str[0], 0);
}
br.close();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return map;
}
/**
* 读文件
*/
public String readFile(String filePath) {
String str = "";
try {
BufferedReader br = new BufferedReader(new InputStreamReader(
new FileInputStream(new File(filePath)), "gbk"));
String tmp = "";
while ((tmp = br.readLine()) != null)
str += tmp;
br.close();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return str;
}
}
分享到:
相关推荐
包含25封正常邮件、25封垃圾邮件以及分类器源代码,适合ML初学者使用
系统功能包括邮件检测与数据管理两大核心模块,邮件检测模块,采用基于朴素贝叶斯算法,使用TF-IDF算法对邮件进行特征提取并将邮件内容以及检测结果存储于MySQL数据库,存储到MySQL中的数据将用于数据管理模块;...
对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证。介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法。采用K次交叉验证的方法,...
系统功能包括邮件检测与数据管理两大核心模块,邮件检测模块,采用基于朴素贝叶斯算法,使用TF-IDF算法对邮件进行特征提取并将邮件内容以及检测结果存储于MySQL数据库,存储到MySQL中的数据将用于数据管理模块;...
在第一阶段,开发了基于规则的垃圾邮件检测器,它根据某些规则将邮件分类为垃圾邮件或非垃圾邮件。 将垃圾邮件中经常出现的250个众所周知的列入黑名单的单词收集并存储在一个词袋中。 检测器程序检查电子邮件中是否...
为垃圾邮件检测实现朴素贝叶斯分类器 [60] 朴素贝叶斯是一种简单有效的机器学习方法,用于解决各种问题,包括垃圾邮件检测的应用。 您将实现一个朴素贝叶斯分类器,将电子邮件消息分类为垃圾邮件(即垃圾邮件)或...
simplenb - Python 朴素贝叶斯分类器使用朴素贝叶斯实现的简单文本分类基于博客您可以将它用于任何基本的文本分类,例如垃圾邮件检测自动为项目分配类别情绪分析以及更多..要求 - Python 2.7+ (other version will ...
垃圾邮件检测是NLP的主要应用之一。 所有主要的电子邮件服务提供商都内置了垃圾邮件检测系统,并将这些邮件自动分类为“垃圾邮件”。 在这里,基于我们对模型的训练,朴素贝叶斯算法用于创建一个模型,该模型可以将...
在经典卷积神经网络的基础上,该方法增加了过滤层,并在过滤层设计基于朴素贝叶斯权重技术的注意力机制,解决了噪声性问题。并且,它改变了池化层原有的策略,采用基于注意力机制的池化策略,缓解了稀疏性问题。结果...
互联网领域----语音识别、搜索引擎、语言翻译、垃圾邮件过滤、自然语言处理等 生物领域----基因序列分析、DNA 序列预测、蛋白质结构预测等 自动化领域----人脸识别、无人驾驶技术、图像处理、信号处理等 金融领域...
在该项目中,基于我们对模型的训练,朴素贝叶斯算法用于创建一个模型,该模型可以将数据集SMS消息分类为垃圾邮件或非垃圾邮件。 通常这些文字中有“免费”,“赢”,“赢家”,“现金”,“奖品”之类的词,因为...
4.垃圾邮件过滤器,朴素贝叶斯和争吵 5. Logistic回归 6.时间戳和财务建模 7.从数据中提取含义 8.推荐引擎:大规模构建面向用户的数据产品 9.数据可视化和欺诈检测 10.社交网络和数据新闻学 11.因果关系 12.流行病学...