java爬虫开发(java爬虫菜鸟教程)

1.Jsoup概要

Java支持的爬虫框架有web幻灯片、Spider、Jsoup等很多。今天用Jsoup实现简单的爬虫程序。

joup提供了用于处理html文档的方便api，包括如何遍历引用DOM对象的文档，以及如何使用CSS选择器，因此可以使用Jsoup快速学习滚动页面数据的技术

2 .快速启动

1 )创建HTML网页

页面内表格的商品信息是我们攀登的数据。属性pname类的商品名和属于pimg类的商品图像。

2 )使用HTML客户端读取HTML页面

Http客户端是一种处理Http协议数据的工具，可以将HTML页作为输入流导入到java程序中。可以从http://hc.apache.org/下载http客户端的jar软件包。

3 )使用Jsoup分析html字符串

引入Jsoup工具，直接调用parse方法，解析描述html页内容的字符串以获取Document对象。 Document对象使用DOM树来检索在html页面上指定的内容。相关API为Jsoup官方文档： https://jsoup.org/cookbook/

在此使用Jsoup，获取上述html指定的商品名和价格的信息。

现在实现了使用HTML客户端jsoup检索HTML页面数据的功能。接下来，将爬网的数据保存到数据库中，或者将图像保存到服务中等，使效果更加直观吧。

3 .保存爬网的页面数据

1 )将普通数据保存在数据库中

将爬取的数据封装到实体Bean中，并与数据库共存。

2 )将图像保存到服务器

直接下载图片并保存到服务器本地。

4 .总结

虽然本案简单地实现了使用http客户端jsoup获取互联网数据，但爬虫技术本身还有很多需要深入挖掘的地方，稍后我将为您介绍。

千锋重庆Java研修作为中国IT研发人才一体化服务的开拓者，为学生制定合理有序的学习计划，0学费入学，免费试听两周不满意不收费，与学生签订就业协议，坚持良心面试

Published by