Jsoup是一个开源的解析html的类库,非常好用,亦可用来获取html源文件。利用Jsoup也可以轻松将一个网站全部抓取下来。我的思路是这样的:
1.抓取网站的导航页面,将导航链接解析出来存好。
2.顺着导航链接获取导航分类的页面数。
3.抓取分类页面并解析具体文章链接。
4.抓取具体文章页面并解析内容。
这样要求目标站点结构清晰,分类明确。
下面是一个简单示例:
package cn.zhf.test;
import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class FetchTest {
public static void main(String[] args) {
getUrl();
}
public static void getUrl(){
Connection conn = Jsoup.connect("http://mianshibaike.com/data/sitemap.html").timeout(10000);
try {
Document doc = conn.get();
String html = doc.html();
Elements element = doc.getElementsByAttribute("href");
int i=0;
for(Element ele: element){
System.out.println(ele.absUrl("href"));
i++;
}
System.out.println(i);
} catch (IOException e) {
e.printStackTrace();
}
}
}
分享到:
相关推荐
jsoup网络爬虫jsoup网络爬虫jsoup网络爬虫jsoup网络爬虫
使用jsoup进行爬虫并获取模板网页具体数据,获取总页数进行自动翻页处理。
使用jsoup做的网络爬虫项目,爬取红袖小说网的部分书籍封面图,将图片下载到项目根目录的img文件夹中,并使用DButils将图片的url存入MySQL数据库 开发环境:Eclipse 数据库版本:MySQL 8.0
给出网址可以抓取网页上的代码 可自己根据抓取网页的源码来修改要追踪的标签。 此demo为了熟悉和使用jsoup。
jsoup java爬虫 搞笑图片 内带jsoup.jar maven 地址
该资源包含了一个利用jsoup实现的网页爬虫的下案例,简单易懂。
Jsoup网络爬虫
htmluinit+jsoup 网络爬虫 项目练习
基于jsoup实现爬虫和IKAnalyzer分词器,自己学习时编写的一个简单的例子,以智联招聘,和boss直聘为目标
基于jsoup的网络爬虫开发,简单易懂,易于初学者分析!!!
JsoupXpath jsoup的升级版 ,支持jsoup的同时还支持原生xpath语法,让你的爬虫更得心应手,无所不爬!
java爬虫完整代码,爬取某东和某电影平台,可以举一反三爬取想要的资源有用信息;利用jsoup跨域请求url地址,利用jQuery选择器选取页面元素,获取想要的信息标签中的内容,转为java对象保存到数据库或者缓存.
java爬虫,代码写的有点丑,反正是能用。 今天给大家分享一个多线程的知识点,和线程池,最近任务是写爬虫,五百个网址,循环很慢,然后考虑用多线程,今天看了一下多线程,氛围继承thread 和实现runnuble接口,...
基于jsoup实现的java爬虫,爬取豆瓣电影数据基于jsoup实现的java爬虫,爬取豆瓣电影数据
jsoup爬虫学习源代码和jsoup 的jar包上传,我的第一次上传资源,多多包涵
Jsoup实现省市区的爬取,突破ip的访问限制,实现动态ip代理,爬取最新的省市区信息
java 爬虫 里面有相关jar 和文件 直接下载就能使用 httpclient3.1
初级爬虫
jsoup1.8.1抓取爬虫工具jsoup1.8.1抓取爬虫工具jsoup1.8.1抓取爬虫工具
无聊用Jsoup做的一个 小的阅读软件。只用于学习,不用于商用。如有问题请联系我