1.Jsoup概要
Java支持的爬虫框架有web幻灯片、Spider、Jsoup等很多。 今天用Jsoup实现简单的爬虫程序。
joup提供了用于处理html文档的方便api,包括如何遍历引用DOM对象的文档,以及如何使用CSS选择器,因此可以使用Jsoup快速学习滚动页面数据的技术
2 .快速启动
1 )创建HTML网页
页面内表格的商品信息是我们攀登的数据。 属性pname类的商品名和属于pimg类的商品图像。
2 )使用HTML客户端读取HTML页面
Http客户端是一种处理Http协议数据的工具,可以将HTML页作为输入流导入到java程序中。 可以从http://hc.apache.org/下载http客户端的jar软件包。
3 )使用Jsoup分析html字符串
引入Jsoup工具,直接调用parse方法,解析描述html页内容的字符串以获取Document对象。 Document对象使用DOM树来检索在html页面上指定的内容。 相关API为Jsoup官方文档: https://jsoup.org/cookbook/
在此使用Jsoup,获取上述html指定的商品名和价格的信息。
现在实现了使用HTML客户端jsoup检索HTML页面数据的功能。 接下来,将爬网的数据保存到数据库中,或者将图像保存到服务中等,使效果更加直观吧。
3 .保存爬网的页面数据
1 )将普通数据保存在数据库中
将爬取的数据封装到实体Bean中,并与数据库共存。
2 )将图像保存到服务器
直接下载图片并保存到服务器本地。
4 .总结
虽然本案简单地实现了使用http客户端jsoup获取互联网数据,但爬虫技术本身还有很多需要深入挖掘的地方,稍后我将为您介绍。
千锋重庆Java研修作为中国IT研发人才一体化服务的开拓者,为学生制定合理有序的学习计划,0学费入学,免费试听两周不满意不收费,与学生签订就业协议,坚持良心面试