栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

《python网络数据采集》--好书推荐

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

《python网络数据采集》--好书推荐

一个前辈推荐的一本新书,
书到后很快就觉得这是好书。

就想要系统的读这本书,
同时也想和大家分享一下。

下面是这本数的大致目录



第一部分 创建爬虫 第一章 复杂的HTML解析
    BeautifulSoup库   
    Lambda表达式
    超越BeautifulSoup
第二章 开始采集
    遍历单个域名
    采集整个网站
    通过互联网采集
    用Scrapy采集
第三章 使用API
    API概述
    API通用规则
    服务器响应
    Echo Nest
    Twitter API
    Google API
    解析JSON数据
第四章 存储数据
    把数据存储到CSV
    把数据存储到MongoDB
第五章 读取文档
    文档编码
    纯文本
    CSV
    PDF
    微软Word和.docx

第二部分 高级数据清洗 第六章 数据清洗
    编写代码清洗数据
    数据存储后清洗数据
第七章 自然语言处理
    概括数据
    马尔代夫模型
    自然语言工具包
    其他资源
第八章 穿越网页表单与登录窗口进行采集
    Python Requests 库
    提交一个基本表单
    单选按钮.复选框和其他输入
    提交文件和图像
    处理登录和cookie
    其他表单问题
第九章 采集Javascript
    Ajax和动态HTML
    处理重定向
第十章 图像识别与文字处理
    OCR库概述
    处理格式规范的文字
    读取验证码与训练Tessract
    获取验证码提交答案
第十一章 避免采集陷阱
    伪装爬虫
    常见表单安全措施
    问题检查表
第十二章 用爬虫测试网站
    测试简介
    Python测试单元
    Selenium单元测试
    Python单元测试与Selenium单元测试的选择
第十三章 远程采集
    Tor 代理服务器
    远程主机
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/226055.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号