八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
String title =
element.select(\).text(); String introduction =
element.select(\).text();
String author = element.select(\fa-user]\).text();
System.out.println(\+title);
System.out.println(\+introduction); System.out.println(\+author);
System.out.println(\);
} }
//根据url地址获取对应页面的HTML内容,我们将上一节中的内容打包成了一个方法,方便调用
private static String getHTMLContent( String url ) throws IOException {
//建立一个新的请求客户端
CloseableHttpClient httpClient = HttpClients.createDefault();
//使用HttpGet方式请求网址
HttpGet httpGet = new HttpGet(url);
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
//获取网址的返回结果
CloseableHttpResponse response = httpClient.execute(httpGet);
//获取返回结果中的实体
HttpEntity entity = response.getEntity();
String content = EntityUtils.toString(entity);
//关闭HttpEntity流
EntityUtils.consume(entity);
return content; } }
最终的输出结果如下图所示:
本文转载于:http://www.datalearner.com/blog/1051501160659926
相关采集教程: 网络爬虫视频教程
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
http://www.bazhuayu.com/tutorial/videotutorial 网页数据爬取教程
http://www.bazhuayu.com/tutorial/hottutorial 淘宝数据采集
http://www.bazhuayu.com/tutorial/hottutorial/dianshang/taobao 京东爬虫
http://www.bazhuayu.com/tutorial/hottutorial/dianshang/jd 天猫爬虫
http://www.bazhuayu.com/tutorial/hottutorial/dianshang/tmall 阿里巴巴数据采集
http://www.bazhuayu.com/tutorial/hottutorial/dianshang/alibaba 亚马逊爬虫
http://www.bazhuayu.com/tutorial/hottutorial/dianshang/amazon 网易彩票数据采集
http://www.bazhuayu.com/tutorial/hottutorial/jrzx/wycaipiao
八爪鱼——100万用户选择的网页数据采集器。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。