栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

java爬虫实战之模拟登陆

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

java爬虫实战之模拟登陆

使用jsoup工具可以解析某个URL地址、HTML文本内容,是java爬虫很好的优势,也是我们在网络爬虫不可缺少的工具。本文小编带领大家使用jsoup 实现java爬虫模拟登陆,通过省力的API,很好的实现java爬虫模拟登陆。

一、使用工具:Jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

二、实现java爬虫模拟登陆

1、确定想要爬取的url

import java.io.BufferedWriter;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.util.Map.Entry;
import java.util.Set;
 
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.document;
import org.jsoup.nodes.Element;
 
public class SplitTable {
 
    public static void main(String[] args) throws IOException {
        //想要爬取的url
        String url = "http://jwcnew.nefu.edu.cn/dblydx_jsxsd/xskb/xskb_list.do?
Ves632DSdyV=NEW_XSD_PYGL";
        String username = "";
        String password = "";
        String sessionId = getSessionInfo(username,password);
        spiderWebSite(sessionId,url);
    }

2、获取sessionId

private static String getSessionInfo(String username,String password)
 throws IOException{

3、登录网站,返回sessionId信息

Connection.Response res = Jsoup.connect("http://jwcnew.nefu.edu.cn/dblydx_jsxsd/xk/LoginToXk")

4、获得sessionId

 String sessionId = res.cookie("JSESSIONID");
        System.out.println(sessionId);
        return sessionId;
    }

5、爬取内容

private static void spiderWebSite(String sessionId,String url) throws IOException{
 
        //爬取
        document doc = Jsoup.connect(url).cookie("JSESSIONID", sessionId).timeout(10000).get();
        Element table = doc.getElementById("kbtable");
        //System.out.println(table);
        BufferedWriter bw = new BufferedWriter
(new OutputStreamWriter(new FileOutputStream("F:/table.html")));
        bw.write(new String(table.toString().getBytes()));
        bw.flush();
        bw.close();
    }
}

以上就是实现java爬虫模拟登陆的工具及具体实现代码,希望能对你有所帮助哦~更多java教程:java教程。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/15087.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号