栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

第一个 java爬虫

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

第一个 java爬虫

java爬取一个网站数据



核心代码

List list = new ArrayList<>();
        document document = null;
        String  baseUrl="http://youth.swust.edu.cn" ;
        String  grabUrl="http://youth.swust.edu.cn/7671/list.htm?fbtdqnaywsrpcvoc";
        document = Jsoup.parse(new URL(grabUrl), 30000);
        String titleDivs="#wp_news_w21 > ul.wp_article_list";
        Element uls = document.selectFirst(titleDivs);
        //抓取失败的时候
        if(uls.childNodeSize()<2){
            Map  map = new HashMap<>();
            map.put("title","数据抓取失败,请重试,或者查看网站【 http://youth.swust.edu.cn/7671/list.htm?fbtdqnaywsrpcvoc 】是否正常运行!");
            list.add(map);
            return list;
        }
        //抓取成功了
        int j= uls.childNodeSize()/2;
        for (int i=0;i  map = new HashMap<>();
            map.put("title",title);
            map.put("time",time);
            map.put("url",url);
            list.add(map);
        }
        return list;
        



返回样式


{
    "msg": "操作成功",
    "code": 200,
    "data": [
        {
            "time": "2020-10-12",
            "title": "中国青年志愿者扶贫接力计划研究生支教团",
            "url": "http://youth.swust.edu.cn/2021/0301/c7671a129922/page.htm"
        },
        {
            "time": "2020-10-09",
            "title": "中国青年志愿者扶贫接力计划第23届研究生支教团暨西南科技大学第...",
            "url": "http://youth.swust.edu.cn/2021/0207/c7671a129858/page.htm"
        },
        {
            "time": "2020-06-16",
            "title": "“中国创翼”青年创业创新大赛",
            "url": "http://youth.swust.edu.cn/2021/0301/c7671a129921/page.htm"
        },
        {
            "time": "2019-10-24",
            "title": "“创青春”全国大学生创业大赛",
            "url": "http://youth.swust.edu.cn/2019/1024/c7671a113077/page.htm"
        },
        {
            "time": "2019-10-23",
            "title": "西南科大与中国文联亲密携手合作育人以文化人",
            "url": "http://youth.swust.edu.cn/2019/1023/c7671a113051/page.htm"
        },
        {
            "time": "2019-04-02",
            "title": "“挑战杯”全国大学生课外学术科技作品竞赛和中国大学生创业计划...",
            "url": "http://youth.swust.edu.cn/2019/1024/c7671a113061/page.htm"
        },
        {
            "time": "2018-11-26",
            "title": "中国文艺支教志愿服务活动",
            "url": "http://youth.swust.edu.cn/2019/1024/c7671a113081/page.htm"
        },
        {
            "time": "2018-11-01",
            "title": "“挑战杯”全国大学生课外学术科技作品竞赛和中国大学生创业计划...",
            "url": "http://youth.swust.edu.cn/2019/1024/c7671a113062/page.htm"
        },
        {
            "time": "2016-03-30",
            "title": "全国互联网+创新创业大赛",
            "url": "http://youth.swust.edu.cn/2021/0301/c7671a129923/page.htm"
        }
    ]
}




想深入就去看看这些包里的方法

import org.jsoup.Jsoup;
import org.jsoup.nodes.document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/270939.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号