每日一书:《用python写网络爬虫》PDF高清版


每日一书:《用python写网络爬虫》PDF高清版

内容简介

《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia来进行数据抓取,使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。

获取方法

私信回复【软件测试】就可以免费领取了

目  录

第1章 网络爬虫简介 1n
1.1 网络爬虫何时有用 1n
1.2 网络爬虫是否合法 2n
1.3 背景调研 3n
1.3.1 检查robots.txt 3n
1.3.2 检查网站地图 4n
1.3.3 估算网站大小 5n
1.3.4 识别网站所用技术 7n
1.3.5 寻找网站所有者 7n
1.4 编写第一个网络爬虫 8n
1.4.1 下载网页 9n
1.4.2 网站地图爬虫 12n
1.4.3 ID遍历爬虫 13n
1.4.4 链接爬虫 15n
1.5 本章小结 22n

每日一书:《用python写网络爬虫》PDF高清版


第2章 数据抓取 23n
2.1 分析网页 23n
2.2 三种网页抓取方法 26n
2.2.1 正则表达式 26n
2.2.2 Beautiful Soup 28n
2.2.3 Lxml 30n
2.2.4 性能对比 32n
2.2.5 结论 35n
2.2.6 为链接爬虫添加抓取回调 35n
2.3 本章小结 38n

每日一书:《用python写网络爬虫》PDF高清版


第3章 下载缓存 39n
3.1 为链接爬虫添加缓存支持 39n
3.2 磁盘缓存 42n
3.2.1 实现 44n
3.2.2 缓存测试 46n
3.2.3 节省磁盘空间 46n
3.2.4 清理过期数据 47n
3.2.5 缺点 48n
3.3 数据库缓存 49n
3.3.1 NoSQL是什么 50n
3.3.2 安装MongoDB 50n
3.3.3 MongoDB概述 50n
3.3.4 MongoDB缓存实现 52n
3.3.5 压缩 54n
3.3.6 缓存测试 54n
3.4 本章小结 55n

每日一书:《用python写网络爬虫》PDF高清版


第4章 并发下载 57n
4.1 100万个网页 57n
4.2 串行爬虫 60n
4.3 多线程爬虫 60n
4.3.1 线程和进程如何工作 61n
4.3.2 实现 61n
4.3.3 多进程爬虫 63n
4.4 性能 67n
4.5 本章小结 68n

每日一书:《用python写网络爬虫》PDF高清版


第5章 动态内容 69n
5.1 动态网页示例 69n
5.2 对动态网页进行逆向工程 72n
5.3 渲染动态网页 77n
5.3.1 PyQt还是PySide 78n
5.3.2 执行JavaScript 78n
5.3.3 使用WebKit与网站交互 80n
5.3.4 Selenium 85n
5.4 本章小结 88n

每日一书:《用python写网络爬虫》PDF高清版


第6章 表单交互 89n
6.1 登录表单 90n
6.2 支持内容更新的登录脚本扩展 97n
6.3 使用Mechanize模块实现自动化表单处理 100n
6.4 本章小结 102n

每日一书:《用python写网络爬虫》PDF高清版


第7章 验证码处理 103n
7.1 注册账号 103n
7.2 光学字符识别 106n
7.3 处理复杂验证码 111n
7.3.1 使用验证码处理服务 112n
7.3.2 9kw入门 112n
7.3.3 与注册功能集成 119n
7.4 本章小结 120n

每日一书:《用python写网络爬虫》PDF高清版


第8章 Scrapy 121n
8.1 安装 121n
8.2 启动项目 122n
8.2.1 定义模型 123n
8.2.2 创建爬虫 124n
8.2.3 使用shell命令抓取 128n
8.2.4 检查结果 129n
8.2.5 中断与恢复爬虫 132n
8.3 使用Portia编写可视化爬虫 133n
8.3.1 安装 133n
8.3.2 标注 136n
8.3.3 优化爬虫 138n
8.3.4 检查结果 140n
8.4 使用Scrapely实现自动化抓取 141n
8.5 本章小结 142n

每日一书:《用python写网络爬虫》PDF高清版

第9章 总结 143n
9.1 Google搜索引擎 143n
9.2 Facebook 148n
9.2.1 网站 148n
9.2.2 API 150n
9.3 Gap 151n
9.4 宝马 153n
9.5 本章小结 157显示部分信息

每日一书:《用python写网络爬虫》PDF高清版

总结

软件测试属于经验积累型职业,想要自己越老越值钱,那么就要不断的学习,不断的完善自己,另外,青春饭一般是因为你的职业发展停滞不前导致,如果一个测试员,干了10年还是测试员,那只能怪他自己,但是反过来讲,任何一个行业,除非国企事业单位公务员,相对稳定一些,否则任何一个行业如果你是干了很久都是小喽啰,那也都是青春饭,老板当然会考虑你做了那么久为什么一点进步都没有呢?IT这行也是如此,所以说,不断学习,不断提升自己,才是不会被淘汰的真理。电子档关注小编+私信【软件测试】即可获取。

展开阅读全文

页面更新:2024-04-28

标签:爬虫   网络   私信   表单   小结   缓存   进程   页面   链接   网页   测试   方法   内容   数据   科技   网站   高清

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top