- 浏览: 27040 次
最新评论
文章列表
最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理,但是无奈一直就是插入失败。最后研究发现,其实就是一个简单的单双引号问题,只要把双引号转义,就可以插入到数据库中。
比如,网页上的一段链接是这样写的:<a href="http://csdn.net/zh">xxx</a>;
我们只要处理其中的这一段就可以了:"http://csdn.net/zh";
这一段用字符串表示就是这样: String str = "\"http://csdn.net/zh\"";
把这一个 ...
- 2014-03-25 09:02
- 浏览 431
- 评论(0)
最近想把爬虫抓取到的网页数据插入的数据库中保存以便方便处理,但是无奈一直就是插入失败。最后研究发现,其实就是一个简单的单双引号问题,只要把双引号转义,就可以插入到数据库中。
比如,网页上的一段链接是这样写的:<a href="http://csdn.net/zh">xxx</a>;
我们只要处理其中的这一段就可以了:"http://csdn.net/zh";
这一段用字符串表示就是这样: String str = "\"http://csdn.net/zh\"";
把这一个 ...
- 2014-03-25 09:02
- 浏览 169
- 评论(0)
package cn.zhf.lucene;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.Date;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
im ...
- 2014-03-10 11:09
- 浏览 181
- 评论(0)
Jsoup是一个开源的解析html的类库,非常好用,亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的:
1.抓取网站的导航页面,将导航链接解析出来存好。
2.顺着导航链接获取导航分类的页面数。
3.抓取分类页面并解析具体文章链接。
4.抓取具体文章页面并解析内容。
这样要求目标站点结构清晰,分类明确。
下面是一个简单示例:
package cn.zhf.test;
import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
impo ...
- 2014-03-10 10:50
- 浏览 289
- 评论(0)
汉诺塔是根据一个传说形成的一个问题:
有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆:
每次只能移动一个圆盘;
大盘不能叠在小盘上面。
提示:可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。
package cn.zhf.test;
public class HanoiTower {
public static int nDisks = 2;
public static void moveDisks(int topN,char from,char inter, ...
- 2014-03-10 10:32
- 浏览 589
- 评论(0)
汉诺塔是根据一个传说形成的一个问题:
有三根杆子A,B,C。A杆上有N个(N>1)穿孔圆盘,盘的尺寸由下到上依次变小。要求按下列规则将所有圆盘移至C杆:
每次只能移动一个圆盘;
大盘不能叠在小盘上面。
提示:可将圆盘临时置于B杆,也可将从A杆移出的圆盘重新移回A杆,但都必须遵循上述两条规则。
package cn.zhf.test;
public class HanoiTower {
public static int nDisks = 2;
public static void moveDisks(int topN,char from,char inter, ...
- 2014-03-10 10:32
- 浏览 246
- 评论(0)
以前在统计学的学习中,有回归分析,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析,最小二乘法可根据给定的数据拟合出一条近似的直线。
package cn.zhf.test;
/**
* 最小二乘法 线性回归 y = a*x + b
*
* b = sum( y ) / n - a * sum( x ) / n
*
* a = ( n * sum( xy ) - sum( x ) * sum( y ) ) / ( n * sum( x^2 ) - sum(x) ^ 2 )
*
*/
public class Line ...
- 2014-03-10 10:19
- 浏览 344
- 评论(0)
以前在统计学的学习中,有回归分析,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析,最小二乘法可根据给定的数据拟合出一条近似的直线。
package cn.zhf.test;
/**
* 最小二乘法 线性回归 y = a*x + b
*
* b = sum( y ) / n - a * sum( x ) / n
*
* a = ( n * sum( xy ) - sum( x ) * sum( y ) ) / ( n * sum( x^2 ) - sum(x) ^ 2 )
*
*/
public class Line ...
- 2014-03-10 10:19
- 浏览 267
- 评论(0)
package cn.zhf.test;
import java.util.Comparator;
import java.util.NoSuchElementException;
public class HuffmanTree {
final int SIZE = 256;
public static void main(String[] args) {
new HuffmanTree().encode();
}
// 编码
public void encode() {
String str = "h ...
- 2014-03-10 10:04
- 浏览 231
- 评论(0)
package cn.zhf.test;
import java.util.Comparator;
import java.util.NoSuchElementException;
public class HuffmanTree {
final int SIZE = 256;
public static void main(String[] args) {
new HuffmanTree().encode();
}
// 编码
public void encode() {
String str = "h ...
- 2014-03-10 10:04
- 浏览 165
- 评论(0)
图G由两个集合V和E组成,记为:G=(V,E),其中:V是顶点的有穷非空集合,E是V中顶点偶对(称为边)的有穷集。通常,也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空,则图G只有顶点而没有边。图有两种存储结构:邻接矩阵和邻接表。邻接矩阵:用邻接矩阵表示顶点间的相邻关系, 用一个顺序表来存储顶点信息。邻接表:类似于树的孩子链表表示法。对于图G中的每个顶点vi,该方法把所有邻接于vi的顶点vj链成一个带头结点的单链表,这个单链表就称为顶点vi的邻接表(Adjacency
List)。
下面是用邻接矩阵存储的图。
package cn.zhf.test; ...
- 2014-03-10 09:59
- 浏览 404
- 评论(0)
图G由两个集合V和E组成,记为:G=(V,E),其中:V是顶点的有穷非空集合,E是V中顶点偶对(称为边)的有穷集。通常,也将图G的顶点集和边集分别记为V(G)和E(G)。E(G)可以是空集。若E(G)为空,则图G只有顶点而没有边。图有两种存储结构:邻接矩阵和邻接表。邻接矩阵:用邻接矩阵表示顶点间的相邻关系, 用一个顺序表来存储顶点信息。邻接表:类似于树的孩子链表表示法。对于图G中的每个顶点vi,该方法把所有邻接于vi的顶点vj链成一个带头结点的单链表,这个单链表就称为顶点vi的邻接表(Adjacency
List)。
下面是用邻接矩阵存储的图。
package cn.zhf.test; ...
- 2014-03-10 09:59
- 浏览 229
- 评论(0)
贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮 ...
- 2014-03-10 09:19
- 浏览 207
- 评论(0)
贝叶斯在在反垃圾邮件的产品中应用很多,也是当前最好的反垃圾邮件算法,著名的卡巴斯基病毒库代码就是采用贝叶斯过滤算法,在目前的邮件系统中采用贝叶斯过滤算法的唯有GCMAil邮件服务器。下面我就对贝叶斯反垃圾邮 ...
- 2014-03-10 09:19
- 浏览 578
- 评论(0)
package cn.zhf.test;
import java.io.*;
import java.util.*;
public class SpamMailDetection {
public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mail";
public static final String SPAM_PATH = BASE_PATH + "\\train_illegal.txt";//垃圾邮件语料
public static final S ...
- 2014-03-10 09:15
- 浏览 224
- 评论(0)