干货丨实用Python爬虫工具使用指南

网络爬虫就是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。今天小编特意整理了一些实用的Python爬虫小工具，希望对大家的工作学习有帮助。

通用：

urllib -网络库(stdlib)。

requests -网络库。

grab – 网络库(基于pycurl)。

pycurl – 网络库(绑定libcurl)。

urllib3 – Python HTTP库，安全连接池、支持文件post、可用性高。

httplib2 – 网络库。

RoboBrowser – 一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页。

MechanicalSoup – 一个与网站自动交互Python库。

mechanize -有状态、可编程的Web浏览库。

socket – 底层网络接口(stdlib)。

Unirest for Python – Unirest是一套可用于多种语言的轻量级的HTTP库。

hyper – Python的HTTP/2客户端。

PySocks – SocksiPy更新并积极维护的版本，包括错误修复和一些其他的特征。作为socket模块的直接替换。

异步：

treq – 类似于requests的API(基于twisted)。

aiohttp – asyncio的HTTP客户端/服务器(PEP-3156)。

网络爬虫框架

grab – 网络爬虫框架(基于pycurl/multicur)。

scrapy – 网络爬虫框架(基于twisted)。

pyspider – 一个强大的爬虫系统。

cola – 一个分布式爬虫框架。

HTML/XML解析器

通用：

lxml – C语言编写高效HTML/ XML处理库。支持XPath。

cssselect – 解析DOM树和CSS选择器。

pyquery – 解析DOM树和jQuery选择器。

BeautifulSoup – 低效HTML/ XML处理库，纯Python实现。

html5lib – 根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。

feedparser – 解析RSS/ATOM feeds。

MarkupSafe – 为XML/HTML/XHTML提供了安全转义的字符串。

xmltodict – 一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。

xhtml2pdf – 将HTML/CSS转换为PDF。

untangle – 轻松实现将XML文件转换为Python对象。

字符编码：

uniout – 打印可读字符，而不是被转义的字符串。

chardet – 兼容 Python的2/3的字符编码器。

xpinyin – 一个将中国汉字转为拼音的库。

pangu.py – 格式化文本中CJK和字母数字的间距。

Markdown：

Python-Markdown – 一个用Python实现的John Gruber的Markdown。

Mistune – 速度最快，功能全面的Markdown纯Python解析器。

markdown2 – 一个完全用Python实现的快速的Markdown。

自然语言处理：

NLTK -编写Python程序来处理人类语言数据的最好平台。

Pattern – Python的网络挖掘模块。他有自然语言处理工具，机器学习以及其它。

TextBlob – 为深入自然语言处理任务提供了一致的API。是基于NLTK以及Pattern的巨人之肩上发展的。

jieba – 中文分词工具。

SnowNLP – 中文文本处理库。

loso – 另一个中文分词库。

genius – 基于条件随机域的中文分词。

langid.py – 独立的语言识别系统。

PyPLN – 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库。

浏览器自动化与仿真：

selenium – 自动化真正的浏览器(Chrome浏览器，火狐浏览器，Opera浏览器，IE浏览器)。

Ghost.py – 对PyQt的webkit的封装(需要PyQT)。

Spynner – 对PyQt的webkit的封装(需要PyQT)。

Splinter – 通用API浏览器模拟器(selenium web驱动，Django客户端，Zope)。

多重处理：

threading – Python标准库的线程运行。对于I/O密集型任务很有效。对于CPU绑定的任务没用，因为python GIL。

multiprocessing – 标准的Python库运行多进程。

celery – 基于分布式消息传递的异步任务队列/作业队列。

concurrent-futures – concurrent-futures 模块为调用异步执行提供了一个高层次的接口。

异步网络编程库：

asyncio – (在Python 3.4 +版本以上的 Python标准库)异步I/O，时间循环，协同程序和任务。

Twisted – 基于事件驱动的网络引擎框架。

Tornado – 一个网络框架和异步网络库。

pulsar – Python事件驱动的并发框架。

diesel – Python的基于绿色事件的I/O框架。

gevent – 一个使用greenlet 的基于协程的Python网络库。

eventlet – 有WSGI支持的异步框架。

Tomorrow – 异步代码的奇妙的修饰语法。

队列：

celery – 基于分布式消息传递的异步任务队列/作业队列。

huey – 小型多线程任务队列。

mrq – Mr. Queue – 使用redis & Gevent 的Python分布式工作任务队列。

RQ – 基于Redis的轻量级任务队列管理器。

simpleq – 一个简单的，可无限扩展，基于Amazon SQS的队列。

python-gearman – Gearman的Python API。

HTML页面的文本和元数据：

newspaper – 用Python进行新闻提取、文章提取和内容策展。

html2text – 将HTML转为Markdown格式文本。

python-goose – HTML内容/文章提取器。

lassie – 人性化的网页内容检索工具

micawber – 一个从网址中提取丰富内容的小库。

sumy -一个自动汇总文本文件和HTML网页的模块

Haul – 一个可扩展的图像爬虫。

python-readability – arc90 readability工具的快速Python接口。

scrapely – 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例，scrapely为所有类似的网页构建一个分析器。

觉得文章实用的小伙伴欢迎大家收藏、转发，获取更多编程实用干货，欢迎大家关注我的头条号~

展开阅读全文

页面更新：2024-03-14

标签：爬虫工具自然语言分词干货队列分布式使用指南中文框架模块接口浏览器语言网页内容科技网络

1 2 3 4 5

Python学习路线最好是哪个？

Python学习路线最好是哪个？目前形形色色的Python学习路线可以说是不计其数了。建议大家去靠谱的学习班找找看，一定不能马虎，毕竟这意味着你能否学到真正的东西。小编觉得接下来这份Python学习路线就很好：如果说Python学

经典延续，超长续航：雷蛇炼狱蝰蛇V2X极速版开箱

在游戏外设领域，Razer雷蛇一直是玩家们推崇的品牌，回想当年大学宿舍里，谁要是有一套雷蛇的键鼠外设，那一定是同学中最靓的仔。这些年过去了，无线键鼠的技术越来越先进，无线和低延迟也终于是鱼和熊掌可以兼得的性能，趁着双11，

等不来显卡，银欣小高个MATX机箱+AMD 5600G装机

声明：实用装机分享，一卡难求情况下的实用配置推荐。坚持做有价值的分享是眼睛君的创作宗旨，欢迎关注支持。前言618的时候京东买了一块11700K，配合之前晒过的ROG B560i使用，使用中经常自动重启，初步判断是B系ITX主板供电不足

安全座椅怎么选？惠尔顿智转使用体验

前言有车家庭有几个买不起安全座椅？应该没几个。适龄儿童为什么不坐安全座椅？没必要、孩子不坐这两个借口占多数。偶尔在网上看到有人说后悔买安全座椅，因为宝宝不坐后悔花了冤枉钱。还有老人帮忙带孩子，总觉得孩子抱在自

大钢炮？乔思伯i100 Pro+240水冷装机

大家好，我是眼睛君，一个奶爸、玩数码的装修家居博主。坚持做有价值的分享是我的创作宗旨，欢迎关注支持。这是一篇拖了一个多月的装机文，5月底分享过最新升级的主板套装华硕ROG STRIX B560i+11900ES，之前折腾了好几台核显IT

Mesh方案怎么部署？以领势VELOP MX4200为例，组网实测

前言去年发过一篇关于装修网络布线的文章，热度虽然还可以，但是感觉内容上有点太深，对于很多小白不是很友好，而且只强调了布线，没有提供组网实例说明。今年对自己家的无线网络进行了升级，楼上楼下采用不同Mesh路由器安装方案

弃矿渣，学大佬组装一台全能All In One NAS，硬件篇

前言和一些数码大佬相比，我也算是新入NAS坑：18年新家买了群辉218play，后来赶上矿潮，花了群辉218play一半的钱换了一台暴风播酷云二期，刷了黑群918+，稳定用了两年，连媳妇都习惯了不定期同步手机相册到NAS，换新手机也没买大容量

孟晚舟将迎来最终庭审，胜率不到百分之一，引渡到美国将监禁30年

关于孟晚舟的事件，相信是近几年大家一直在关注的一件事情。就在8月20日孟晚舟将在加拿大进行最后一次审理。而这次审理也决定了孟晚舟是否将会被引渡。而这最后一次审理可以说是关乎孟晚舟的后半生，孟晚舟作为华为的“

搬砖人的工具，WORX威克士20V锂电钻WE212

声明：大家好，我是眼睛君，一个奶爸、玩数码的装修家居博主。坚持做有价值的分享是我的创作宗旨，欢迎关注支持。前言很久以前晒过一篇居家必备工具合辑，当时自己家装修买了一套威克士的12V的手电钻和冲击钻，家里安装基本都是

我国打破跨国基建难题，运输再也不成问题，美国紧急求购

中国的基建能力是全球公认的世界第一，放眼全球，没有哪个国家能在基建速度和质量方面能和我们叫板。在国外眼里，我们也被贴上了基建大国的标签。而基建能力强的好处就是各个国家在自己需求而又建造不出来的时候，把这个任务

搬砖人的必备，博世GAS 12-25 PL多用途吸尘器使用体验

声明：大家好，我是眼睛君，一个奶爸、玩数码的装修家居博主。坚持做有价值的分享是我的创作宗旨，欢迎关注支持。前言熟悉眼睛君的小伙伴，肯定知道眼睛君动手能力杠杠滴。对于一个装修完自己家又干了两年家装的人来说，电钻电锤

新性价比之王？全面升级，米家扫拖机器人2新品尝鲜

家里第一台扫地机器人，就是初代米家扫地机器人，家里的全屋智能也全部使用的是米家平台。这几年，米家的产品日新月异，高性价比从未改变。本次尝鲜测评的米家扫拖机器人2，功能全面升级，首发售价只要1599，价格甚至持平3年前入手

噱头还是真好用？零冷水热水器安装使用体验

什么是零冷水热水器？这几年，越来越多的人开始在意使用燃气热水器水龙头刚打开时热水迟迟不来的问题：浪费水资源，使用体验差。在大西北内陆天然气这么便宜的地方，很多业主新装修的时候甚至要求预留电热水器位置或者洗脸盆下

被坑两年后，网络升级改造+华硕灵耀AX5400 Mesh组网实测

声明：内网改造记录+华硕灵耀AX5400真实使用体验分享，坚持做有价值的分享是眼睛君的创作宗旨。前言近期给自己家升级了全屋Wi-Fi6网络，住楼下同户型的老丈人家用的还是4年前的矿渣路由。而且两年前安装宽带的时候，安装小

给媳妇换一台更好用的嵌入式蒸烤一体，附柜体改造方案

前言：新房入住快三年了，当初购入的西门子嵌入式烤箱媳妇一直用来烤面包用，大小够用，就是没有蒸箱功能，偶尔过节清蒸个鱼就特别尴尬，家里的蒸锅放不下整条鱼，琢磨了好久，决定把烤箱换成蒸烤一体。终于年底了升级一下，换成华帝i2

上滑加载更多 ↓

干货丨实用Python爬虫工具使用指南

通用：

异步：

网络爬虫框架

通用：

字符编码：

自然语言处理：

浏览器自动化与仿真：

多重处理：

异步网络编程库：

队列：

Python学习路线最好是哪个？

经典延续，超长续航：雷蛇炼狱蝰蛇V2X极速版开箱

等不来显卡，银欣小高个MATX机箱+AMD 5600G装机

安全座椅怎么选？惠尔顿智转使用体验

大钢炮？乔思伯i100 Pro+240水冷装机

Mesh方案怎么部署？以领势VELOP MX4200为例，组网实测

弃矿渣，学大佬组装一台全能All In One NAS，硬件篇

孟晚舟将迎来最终庭审，胜率不到百分之一，引渡到美国将监禁30年

搬砖人的工具，WORX威克士20V锂电钻WE212

我国打破跨国基建难题，运输再也不成问题，美国紧急求购

搬砖人的必备，博世GAS 12-25 PL多用途吸尘器使用体验

新性价比之王？全面升级，米家扫拖机器人2新品尝鲜

噱头还是真好用？零冷水热水器安装使用体验

被坑两年后，网络升级改造+华硕灵耀AX5400 Mesh组网实测

给媳妇换一台更好用的嵌入式蒸烤一体，附柜体改造方案

搬砖人的工具，WORX威克士20V锂电钻WE212

被坑两年后，网络升级改造+华硕灵耀AX5400 Mesh组网实测

精通C语言能快速上手Rust吗？

5款Python程序员高频使用开发工具推荐

芯片大佬回归！前AMD副总裁加入壁仞科技，人才不再是“短

干货丨实物编程、Scratch、Python学习线路图汇总

哪个编程语言对编程初学者比较友好？

node之外的后端语言，Java、Python、Go 哪个适合web前端

干货帖丨机器人编程常用语言汇总

iPhone12s将于秋后发布，刘海依旧接口取消，1TB存储