栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

java爬虫基础

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

java爬虫基础

网络爬虫(web crawler)又称网络蜘蛛(web spider)或web信息收集器,是一种按照指定规则,自动抓取或下载网络资源的计算机程序。

Queue(队列)集合使用链表结构存储数据,它只允许在表的前端进行删除操作,在表的后端进行插入操作。

java正则表达式:
d d 代表0-9中的任意一个数字
D D 代表任意一个非数字字符
S S 代表非空类字符
s s 代表空格类字符
p{Lower} p{Lower} 代表小写字母
p{Upper} p{Upper} 代表大写字母
p{Punct} p{Punct} 代表标点符号
p{Blank} p{Blank} 代表空格和制表符t

[abc]   代表a或b或c
[^abc]  除去abc的任何字符
[a-z]   代表a到z
[a-zA-Z]代表a到Z
[1-9]   代表1到9
[a-d1-3]代表a到d和1到3

X{n}        X确定出现n次
X{n,}       X至少出现n次
X{n,m}      X出现n到m次
X?          X出现0次或1次
X*          X出现0次或多次
X+          X出现1次或多次

HttpClient:引入网页请求的工具
Jsoup:网页解析工具

HTTP(Hyper Text Transfer Protocol)

URL统一资源定位符号是URI(统一资源标识符)的一个子集。

报文:按一定格式组织起来的数据,分为请求报文和响应报文。

HTTP请求的方法:
get:
post:
head:和get类似,只会从服务器获取资源的头信息,不能获取响应内容。
put:从客户端发送指定的数据到服务器中代替指定的内容。
delete:从服务器中删除指定的内容。
connect:在客户端使用代理的情况下,使用此方法和服务器建立连接。
options:询问服务器支持的方法。
trace:对可能经过代理发送到服务器的报文进行跟踪。

http头的分类:
通用头,请求头,响应头,实体头

通过头:
    cache-control:请求和响应遵循的缓存机制
    connection:指定连接的有关选项,例如是否需要持久连接
    date:创建http报文的时间
    pragma:包含用来实现特定的指令,通常用 pragma:no-cache
    trailer:
    transfer-encoding:传输的报文实体采用的编码方式
    upgrade:检查http协议,允许服务器指定一种新的协议。
    via:跟踪请求,响应报文的传输路径
    warning:告知用户和缓存相关的警告。
请求头:
    accept:指定客户端可以处理的数据类型
    accept-charset:指定客户端可以接受的字符集
    accept-encoding:指定浏览器可以进行解码的数据编码格式
    accept-language:浏览器可以接收的语言种类
    cookie:
    host:指定服务器的ip和端口,不包括协议
    origin:指定服务器的名称,包括域名和协议
    referer:告知服务器请求的原始资源的URL,包括协议,域名,端口信息等
    upgrade-insecure-requests:向服务器发送一个信号,表示客户端对加密和认证的响应偏好
    user-agent:发起请求的应用程序的名称
响应头:
    accept-ranges:表明服务器对资源请求的可接受范围,定义了范围的单位
    age:服务器产生响应经过的时间,单位为秒,为非负整数,主要用于缓存。
    set-cookie:
    server:表明服务器的版本
    vary:告知代理是从缓存中响应还是从服务器中重新获取。
实体头:
    allow:列车资源所支持的http方法集合
    content-encoding:告知客户端对实体数据的编码方式
    content-language:告知客户端对实体数据使用的语言
    content-length:实体数据的长度
    content-location:实体数据资源的位置
    content-range:当前传输的内容在整个资源中的字节范围
    content-type:实体数据类型
    expires:实体数据的有效期
    last-modified:实体数据上次修改的日期及时间。

爬虫经常遇到的响应类型是html,xml,json

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/755713.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号