每日一书：《用python写网络爬虫》PDF高清版

内容简介

《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序，内容包括网络爬虫简介，从页面中抓取数据的三种方法，提取缓存中的数据，使用多个线程和进程来进行并发抓取，如何抓取动态页面中的内容，与表单进行交互，处理页面中的验证码问题，以及使用Scarpy和Portia来进行数据抓取，使用本书介绍的数据抓取技术对几个真实的网站进行了抓取，旨在帮助读者活学活用书中介绍的技术。

获取方法

私信回复【软件测试】就可以免费领取了

目　　录

第1章网络爬虫简介 1n
1．1　网络爬虫何时有用　1n
1．2　网络爬虫是否合法　2n
1．3　背景调研　3n
1．3．1　检查robots．txt　3n
1．3．2　检查网站地图　4n
1．3．3　估算网站大小　5n
1．3．4　识别网站所用技术　7n
1．3．5　寻找网站所有者　7n
1．4　编写第一个网络爬虫　8n
1．4．1　下载网页　9n
1．4．2　网站地图爬虫　12n
1．4．3　ID遍历爬虫　13n
1．4．4　链接爬虫　15n
1．5　本章小结　22n

第2章　数据抓取　23n
2．1　分析网页　23n
2．2　三种网页抓取方法　26n
2．2．1　正则表达式　26n
2．2．2　Beautiful Soup　28n
2．2．3　Lxml　30n
2．2．4　性能对比　32n
2．2．5　结论　35n
2．2．6　为链接爬虫添加抓取回调　35n
2．3　本章小结　38n

第3章　下载缓存　39n
3．1　为链接爬虫添加缓存支持　39n
3．2　磁盘缓存　42n
3．2．1　实现　44n
3．2．2　缓存测试　46n
3．2．3　节省磁盘空间　46n
3．2．4　清理过期数据　47n
3．2．5　缺点　48n
3．3　数据库缓存　49n
3．3．1　NoSQL是什么　50n
3．3．2　安装MongoDB　50n
3．3．3　MongoDB概述　50n
3．3．4　MongoDB缓存实现　52n
3．3．5　压缩　54n
3．3．6　缓存测试　54n
3．4　本章小结　55n

第4章　并发下载　57n
4．1　100万个网页　57n
4．2　串行爬虫　60n
4．3　多线程爬虫　60n
4．3．1　线程和进程如何工作　61n
4．3．2　实现　61n
4．3．3　多进程爬虫　63n
4．4　性能　67n
4．5　本章小结　68n

第5章　动态内容　69n
5．1　动态网页示例　69n
5．2　对动态网页进行逆向工程　72n
5．3　渲染动态网页　77n
5．3．1　PyQt还是PySide　78n
5．3．2　执行JavaScript　78n
5．3．3　使用WebKit与网站交互　80n
5．3．4　Selenium　85n
5．4　本章小结　88n

第6章　表单交互　89n
6．1　登录表单　90n
6．2　支持内容更新的登录脚本扩展　97n
6．3　使用Mechanize模块实现自动化表单处理　100n
6．4　本章小结　102n

第7章　验证码处理　103n
7．1　注册账号　103n
7．2　光学字符识别　106n
7．3　处理复杂验证码　111n
7．3．1　使用验证码处理服务　112n
7．3．2　9kw入门　112n
7．3．3　与注册功能集成　119n
7．4　本章小结　120n

第8章　Scrapy　121n
8．1　安装　121n
8．2　启动项目　122n
8．2．1　定义模型　123n
8．2．2　创建爬虫　124n
8．2．3　使用shell命令抓取　128n
8．2．4　检查结果　129n
8．2．5　中断与恢复爬虫　132n
8．3　使用Portia编写可视化爬虫　133n
8．3．1　安装　133n
8．3．2　标注　136n
8．3．3　优化爬虫　138n
8．3．4　检查结果　140n
8．4　使用Scrapely实现自动化抓取　141n
8．5　本章小结　142n

第9章　总结　143n
9．1　Google搜索引擎　143n
9．2　Facebook　148n
9．2．1　网站　148n
9．2．2　API　150n
9．3　Gap　151n
9．4　宝马　153n
9．5　本章小结　157显示部分信息

总结

软件测试属于经验积累型职业，想要自己越老越值钱，那么就要不断的学习，不断的完善自己，另外，青春饭一般是因为你的职业发展停滞不前导致，如果一个测试员，干了10年还是测试员，那只能怪他自己，但是反过来讲，任何一个行业，除非国企事业单位公务员，相对稳定一些，否则任何一个行业如果你是干了很久都是小喽啰，那也都是青春饭，老板当然会考虑你做了那么久为什么一点进步都没有呢？IT这行也是如此，所以说，不断学习，不断提升自己，才是不会被淘汰的真理。电子档关注小编+私信【软件测试】即可获取。

展开阅读全文

页面更新：2024-04-28

标签：爬虫网络私信表单小结缓存进程页面链接网页测试方法内容数据科技网站高清

1 2 3 4 5

每日一书：《用python写网络爬虫》PDF高清版

内容简介

获取方法

目　　录

总结

作为一名软件测试人员，有哪些书籍是你必须要看的（值得收藏！）

面试滴滴科技，被按在地上摩擦，鬼知道我经历了什么？

每日一书：《Python核心编程第3版中文版》PDF高清版

字节跳动取消大小周，4年工作经验的老哥，入职字节测开工程师

爆肝给女友整理了这套软件测试自学路线，用了都说好

软件测试必读书籍：《微软的软件测试之道》PDF高清版

面试两个月，我吐了！（软件测试岗面试经验）

字节跳动软件测试岗，前两面过了，第三面HR天坑！竟然跟我说……

每日一书：《Python网络数据采集》PDF高清版

因为自己的能力不足。对不起，这个offer，我拿不了

都是全面开花的机型，realme Q3 Pro和摩托罗拉edges该如何抉择？

试图强奸不认识的女性的30多岁男性…因性功能障碍未遂

手机会取代照相机吗？

发售两个月热度依旧不减？Reno6 Pro获粉无数，O粉节买它就对了

头戴式耳机的精品好货—漫步者W820NB

作为一名软件测试人员，有哪些书籍是你必须要看的（值得收

面试滴滴科技，被按在地上摩擦，鬼知道我经历了什么？

每日一书：《Python核心编程第3版中文版》PDF高清版

爆肝给女友整理了这套软件测试自学路线，用了都说好

软件测试必读书籍：《微软的软件测试之道》PDF高清版

面试两个月，我吐了！（软件测试岗面试经验）

字节跳动软件测试岗，前两面过了，第三面HR天坑！竟然跟我说

每日一书：《Python网络数据采集》PDF高清版

重新定义未来手机影像？四项黑科技大招一次放，OPPO这次玩

测试多年，混过厂也去过小公司，多年经验给你们年轻人一个

每日一书：《用python写网络爬虫》PDF高清版

内容简介

获取方法

目 录

总结

目　　录