用Jsoup做“爬虫” - 不忘初心,方能远行。 - ITeye博客

`

zhaohuafei

浏览: 27164 次

最近访客更多访客>>

beijishiqidu

123和煦

dpcc

ljjr13

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (73)

社区版块

存档分类

2014-04 ( 15)
2014-03 ( 34)
2014-02 ( 20)
更多存档...

最新评论

用Jsoup做“爬虫”

阅读更多

Jsoup是一个开源的解析html的类库，非常好用，亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的：

1.抓取网站的导航页面，将导航链接解析出来存好。

2.顺着导航链接获取导航分类的页面数。

3.抓取分类页面并解析具体文章链接。

4.抓取具体文章页面并解析内容。

这样要求目标站点结构清晰，分类明确。

下面是一个简单示例：

package cn.zhf.test;

import java.io.IOException;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;


public class FetchTest {

	public static void main(String[] args) {
		getUrl();

	}

	public static void getUrl(){
		Connection conn = Jsoup.connect("http://mianshibaike.com/data/sitemap.html").timeout(10000);
		try {
			Document doc = conn.get();
			String html = doc.html();
			Elements element = doc.getElementsByAttribute("href");
			int i=0;
			for(Element ele: element){
				System.out.println(ele.absUrl("href"));
				i++;
			}
			System.out.println(i);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}

}

分享到：

Lucene使用之构建索引、查询 | 汉诺塔问题的递归实现

2014-03-10 10:50
浏览 289
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

jsoup网络爬虫: jsoup网络爬虫jsoup网络爬虫jsoup网络爬虫jsoup网络爬虫

jsoup爬虫实战: 使用jsoup进行爬虫并获取模板网页具体数据，获取总页数进行自动翻页处理。

Jsoup网络爬虫项目: 使用jsoup做的网络爬虫项目，爬取红袖小说网的部分书籍封面图，将图片下载到项目根目录的img文件夹中，并使用DButils将图片的url存入MySQL数据库开发环境：Eclipse 数据库版本：MySQL 8.0

Android_Jsoup网页爬虫案例: 给出网址可以抓取网页上的代码可自己根据抓取网页的源码来修改要追踪的标签。此demo为了熟悉和使用jsoup。

jsoup java爬虫糗事搞笑图片百科: jsoup java爬虫搞笑图片内带jsoup.jar maven 地址

jsoup网页爬虫小案例: 该资源包含了一个利用jsoup实现的网页爬虫的下案例，简单易懂。

Jsoup网络爬虫: Jsoup网络爬虫

htmluinit+jsoup 网络爬虫项目练习: htmluinit+jsoup 网络爬虫项目练习

基于jsoup实现爬虫和IKAnalyzer分词器: 基于jsoup实现爬虫和IKAnalyzer分词器，自己学习时编写的一个简单的例子，以智联招聘，和boss直聘为目标

Jsoup-网络爬虫项目: 基于jsoup的网络爬虫开发，简单易懂，易于初学者分析！！！

JsoupXpath jsoup升级版 java爬虫工具: JsoupXpath jsoup的升级版，支持jsoup的同时还支持原生xpath语法，让你的爬虫更得心应手，无所不爬！

java-Jsoup爬虫完整代码: java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.

httpclient + jsoup java爬虫DEMO: java爬虫，代码写的有点丑，反正是能用。今天给大家分享一个多线程的知识点，和线程池，最近任务是写爬虫，五百个网址，循环很慢，然后考虑用多线程，今天看了一下多线程，氛围继承thread 和实现runnuble接口，...

jsoup实现网络爬虫: 基于jsoup实现的java爬虫,爬取豆瓣电影数据基于jsoup实现的java爬虫,爬取豆瓣电影数据

jsoup爬虫学习之爬取博客（包含jsoup jar包）: jsoup爬虫学习源代码和jsoup 的jar包上传，我的第一次上传资源，多多包涵

Jsoup 网络爬虫（动态ip代理，突破ip访问次数限制）爬取全国各省市区数据: Jsoup实现省市区的爬取，突破ip的访问限制，实现动态ip代理，爬取最新的省市区信息

java+idea+jsoup 爬虫: java 爬虫里面有相关jar 和文件直接下载就能使用 httpclient3.1

java httpclient jsoup爬虫: 初级爬虫

jsoup1.8.1抓取爬虫工具: jsoup1.8.1抓取爬虫工具jsoup1.8.1抓取爬虫工具jsoup1.8.1抓取爬虫工具

Android+jsoup Java爬虫做的一个阅读app。（有源代码，随手写的可能代码有点乱）: 无聊用Jsoup做的一个小的阅读软件。只用于学习，不用于商用。如有问题请联系我

Global site tag (gtag.js) - Google Analytics