`
zhaohuafei
  • 浏览: 27040 次
文章分类
社区版块
存档分类
最新评论
文章列表
最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理,但是无奈一直就是插入失败。最后研究发现,其实就是一个简单的单双引号问题,只要把双引号转义,就可以插入到数据库中。 比如,网页上的一段链接是这样写的:<a href="http://csdn.net/zh">xxx</a>; 我们只要处理其中的这一段就可以了:"http://csdn.net/zh"; 这一段用字符串表示就是这样: String str = "\"http://csdn.net/zh\""; 把这一个 ...
最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理,但是无奈一直就是插入失败。最后研究发现,其实就是一个简单的单双引号问题,只要把双引号转义,就可以插入到数据库中。 比如,网页上的一段链接是这样写的:<a href="http://csdn.net/zh">xxx</a>; 我们只要处理其中的这一段就可以了:"http://csdn.net/zh"; 这一段用字符串表示就是这样: String str = "\"http://csdn.net/zh\""; 把这一个 ...
package cn.zhf.lucene; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.util.Date; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; im ...
Jsoup是一个开源的解析html的类库,非常好用,亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的: 1.抓取网站的导航页面,将导航链接解析出来存好。 2.顺着导航链接获取导航分类的页面数。 3.抓取分类页面并解析具体文章链接。 4.抓取具体文章页面并解析内容。 这样要求目标站点结构清晰,分类明确。 下面是一个简单示例: package cn.zhf.test; import java.io.IOException; import org.jsoup.Connection; import org.jsoup.Jsoup; impo ...
汉诺塔是根据一个传说形成的一个问题: 有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆: 每次只能移动一个圆盘; 大盘不能叠在小盘上面。 提示:可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。 package cn.zhf.test; public class HanoiTower { public static int nDisks = 2; public static void moveDisks(int topN,char from,char inter, ...
汉诺塔是根据一个传说形成的一个问题: 有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆: 每次只能移动一个圆盘; 大盘不能叠在小盘上面。 提示:可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。 package cn.zhf.test; public class HanoiTower { public static int nDisks = 2; public static void moveDisks(int topN,char from,char inter, ...
以前在统计学的学习中,有回归分析,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析,最小二乘法可根据给定的数据拟合出一条近似的直线。 package cn.zhf.test; /** * 最小二乘法 线性回归 y = a*x + b * * b = sum( y ) / n - a * sum( x ) / n * * a = ( n * sum( xy ) - sum( x ) * sum( y ) ) / ( n * sum( x^2 ) - sum(x) ^ 2 ) * */ public class Line ...
以前在统计学的学习中,有回归分析,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析,最小二乘法可根据给定的数据拟合出一条近似的直线。 package cn.zhf.test; /** * 最小二乘法 线性回归 y = a*x + b * * b = sum( y ) / n - a * sum( x ) / n * * a = ( n * sum( xy ) - sum( x ) * sum( y ) ) / ( n * sum( x^2 ) - sum(x) ^ 2 ) * */ public class Line ...
package cn.zhf.test; import java.util.Comparator; import java.util.NoSuchElementException; public class HuffmanTree { final int SIZE = 256; public static void main(String[] args) { new HuffmanTree().encode(); } // 编码 public void encode() { String str = "h ...
package cn.zhf.test; import java.util.Comparator; import java.util.NoSuchElementException; public class HuffmanTree { final int SIZE = 256; public static void main(String[] args) { new HuffmanTree().encode(); } // 编码 public void encode() { String str = "h ...
图G由两个集合V和E组成,记为:G=(V,E),其中:V是顶点的有穷非空集合,E是V中顶点偶对(称为边)的有穷集。通常,也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空,则图G只有顶点而没有边。图有两种存储结构:邻接矩阵和邻接表。邻接矩阵:用邻接矩阵表示顶点间的相邻关系, 用一个顺序表来存储顶点信息。邻接表:类似于树的孩子链表表示法。对于图G中的每个顶点vi,该方法把所有邻接于vi的顶点vj链成一个带头结点的单链表,这个单链表就称为顶点vi的邻接表(Adjacency List)。 下面是用邻接矩阵存储的图。 package cn.zhf.test; ...
图G由两个集合V和E组成,记为:G=(V,E),其中:V是顶点的有穷非空集合,E是V中顶点偶对(称为边)的有穷集。通常,也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空,则图G只有顶点而没有边。图有两种存储结构:邻接矩阵和邻接表。邻接矩阵:用邻接矩阵表示顶点间的相邻关系, 用一个顺序表来存储顶点信息。邻接表:类似于树的孩子链表表示法。对于图G中的每个顶点vi,该方法把所有邻接于vi的顶点vj链成一个带头结点的单链表,这个单链表就称为顶点vi的邻接表(Adjacency List)。 下面是用邻接矩阵存储的图。 package cn.zhf.test; ...
贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮 ...
贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮 ...
package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail"; public static final String SPAM_PATH = BASE_PATH + "\\train_illegal.txt";//垃圾邮件语料 public static final S ...
Global site tag (gtag.js) - Google Analytics