博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用jsoup解析html页面内容案例
阅读量:6470 次
发布时间:2019-06-23

本文共 2502 字,大约阅读时间需要 8 分钟。

 

public String getFaGuiKuTitles(String type, int page) {        String href = "http://info.qd-n-tax.gov.cn/NewFaGuiKu/"+type+"/";        String baseUrl = href + "index";                int no = 0;        String msg = "";                if(page>0){            baseUrl = baseUrl + "_"+page;        }                baseUrl += ".htm";                int totalPage = 0;                List
list = new ArrayList
(); try { URL url = new URL(baseUrl); org.jsoup.nodes.Document doc = Jsoup.parse(url, 10000); org.jsoup.nodes.Element table = doc.select("table").get(0); org.jsoup.nodes.Element tbody = table.select("tbody").get(0); org.jsoup.select.Elements rows = tbody.select("tr"); int len = rows.size(); for (int i = 0; i < len; i++) { org.jsoup.select.Elements cols = rows.get(i).select("td"); FaGui fg = new FaGui(); fg.setTitle(cols.get(0).text()); fg.setDate(cols.get(1).text()); if(cols.size()>2){ fg.setFwzh(cols.get(2).text()); } org.jsoup.nodes.Element a = cols.get(0).select("a").get(0); fg.setHref(a.attr("href").replaceFirst("./", href)); list.add(fg); } //翻页信息 String pager = doc.getElementsByClass("pager").get(0).html(); int start = pager.indexOf("(")+1; int end = pager.indexOf(","); pager = pager.substring(start, end);//截取页面中的总页数 if(pager.matches("\\d+")){ totalPage = Integer.parseInt(pager); } no = 1; msg = "SUCCESS"; log.info("获取税收法规库标题内容", "getFaGuiKuTitles"); } catch (MalformedURLException ex) { Logger.getLogger(LocalServiceImpl.class.getName()).log(Level.SEVERE, null, ex); msg = "获取税收法规库标题内容:baseUrl"+baseUrl+"不可用,ex:"+ex; log.error(msg, "getFaGuiKuTitles"); } catch (IOException ex) { Logger.getLogger(LocalServiceImpl.class.getName()).log(Level.SEVERE, null, ex); msg = "获取税收法规库标题内容:IO异常,ex:"+ex; log.error(msg, "getFaGuiKuTitles"); } return ResultUtil.getResult(no, msg, list,totalPage,page); }

 

转载地址:http://ggdko.baihongyu.com/

你可能感兴趣的文章
java注解基本知识
查看>>
(二)线程同步_7---在一个锁中使用多个条件(Condition)
查看>>
关于自定义View的一些东西
查看>>
JScrollPane 在末尾追加文本,并更新卷滚条,使新添文本可视
查看>>
移动端click有300秒卡顿fastclick.js
查看>>
我的友情链接
查看>>
Windows Server 2012 DHCP故障转移
查看>>
通过密钥 SFTP (三):SFTP 账户指定(不是限定)根目录
查看>>
Dell服务器RAID常用管理命令总结 linux
查看>>
Android Camera简述
查看>>
Linux磁盘限额
查看>>
我的友情链接
查看>>
10.26 作业
查看>>
论剑BGP3
查看>>
关于lun 的几个问题
查看>>
网页图表Highcharts实践教程之图表区
查看>>
告诉自己,坚持学习--自己的新博客
查看>>
redis慢日志查询
查看>>
int表示范围大小
查看>>
玩转百度即用API(4)——手机号码归属地查询
查看>>