怎么用java爬虫爬取网页上的数据?
家电修理 2023-07-16 19:17www.caominkang.com电器维修
本文教程操作环境indos7系统、Python 3.9.1,DELL G3电脑。
1、PhantomJS的功能
提供一个浏览器环境的命令行接口,除了不能浏览,其他与正常浏览器一样。它的内核是WebKit引擎,不提供图形界面,只能在命令行下使用。
2、PhantomJS用途
适用范围就是无头浏览器的适用范围。通常无头浏览器可以用于页面自动化和网络爬虫等。
页面自动化测试电脑维修网希望自动的登陆网站并做一些操作然后检查结果是否正常。
网络爬虫获取页面中使用js来下载和渲染信息,或者是获取链接处使用js来跳转后的真实地址。
3、对于使用PhantomJS编写的parser.js文件调用java爬虫爬取网页数据
Runtime rt = Runtime.getRuntime(); Process process = null; try { process = rt.exec("C:/phantomjs.exe C:/parser.js " +url); InputStream in = process.getInputStream(); InputStreamReader reader = ne InputStreamReader(in, "UTF-8"); BufferedReader br = ne BufferedReader(reader); StringBuffer sbf = ne StringBuffer(); String tmp = ""; hile ((tmp = br.readLine()) != null) { sbf.append(tmp); } return sbf.toString(); } catch (IOException e) { e.printStackTrace(); } return null;
空调维修
- 温岭冰箱全国统一服务热线-全国统一人工【7X2
- 荆州速热热水器维修(荆州热水器维修)
- 昆山热水器故障码5ER-昆山热水器故障码26
- 温岭洗衣机24小时服务电话—(7X24小时)登记报
- 统帅热水器售后维修服务电话—— (7X24小时)登
- 阳江中央空调统一电话热线-阳江空调官方售后电
- 乌鲁木齐阳春燃气灶厂家服务热线
- 珠海许昌集成灶售后服务电话-全国统一人工【
- 乌鲁木齐中央空调维修服务专线-乌鲁木齐中央空
- 新沂热水器故障电话码维修-新沂热水器常见故障
- 诸城壁挂炉24小时服务热线电话
- 靖江空调24小时服务电话-——售后维修中心电话
- 空调室外滴水管维修(空调室外排水管维修)
- 九江壁挂炉400全国服务电话-(7X24小时)登记报修
- 热水器故障码f.22怎么解决-热水器f0故障解决方法
- 营口热水器售后维修服务电话—— 全国统一人工