2种方法，教你轻松学会scrapy框架

我们上节课通过一个案例基本了解了scrapy框架爬取数据的基本流程，这节课我们通过爬取链家网房源标题信息，来加深scrapy框架的理解，同时上节课我们保存的方式，我们设置的parse必须有返回值才能够保存，这节课我们通过管道存储方式，来爬取我们想要的数据信息。

1.scrapy框架爬取数据的步骤

其中前三步我们上节课有提到，大家可以试着先操作一下。

第一步，新建文件夹

通过终端指令（scrapy+startproject+文件名），我们新建一个名为（house）的文件夹

2种方法，教你轻松学会scrapy框架

第二步，新建爬虫文件

我们继续通过终端指令（scrapy+genspider+文件名+通用域名），我们新建一个名为（rent）的爬虫文件

2种方法，教你轻松学会scrapy框架

第三步，修改爬虫代码

打开爬虫文件（rent.py），我们修改我们需要爬取的网址，并进行数据解析，解析方式与requests解析几乎一致，只是需要加一个extract方法以及join方法，如下，这样我们就获得了我们想要的数据信息。但是我们接下来要通过管道保存数据

2种方法，教你轻松学会scrapy框架

第四步，管道保存数据

1）管道保存数据这一步稍微复杂一点，我们需要先将解析的数据，实例化给item，通过item再传给管道，因此，item尤为关键，首先打开文件夹（items.py）,将我们上一步解析到的数据进行属性的设定，如下图：

2种方法，教你轻松学会scrapy框架

2）然后解析数据（tt）实例化给item

2种方法，教你轻松学会scrapy框架

3）进入文件（pipelines）进行如下设置，通过定义开始爬虫，新建一个“house.txt”文件夹，然后将item文件传给管道，再通过结束爬虫，关闭文件夹。

2种方法，教你轻松学会scrapy框架

4）打开（setting）文件夹，设置user-agent的值，以及robot的值，以及管道这个参数（找到该参数将井号去掉即可）

2种方法，教你轻松学会scrapy框架

第五步，运行代码

在终端输入，scrapy crawl +爬虫文件名，运行

2种方法，教你轻松学会scrapy框架

展开阅读全文

页面更新：2024-05-12

标签：框架爬虫终端文件名指令文件夹管道实例参数轻松代码方式文件方法数据科技信息

1 2 3 4 5

2种方法，教你轻松学会scrapy框架

1.scrapy框架爬取数据的步骤

第一步，新建文件夹

第二步，新建爬虫文件

第三步，修改爬虫代码

第四步，管道保存数据

第五步，运行代码

全网最全的python学习路线图，帮你整理好了

干货分享！scrapy全站爬取数据以及crawlspider怎么用

入门必看！python入门教程书籍推荐

scrapy实例进阶篇之下载中间件（一）

最全面mysql如何查询表信息大全！赶快来试试！（下）

干货分享！scrapy爬取图片的详细步骤（一）

scrapy爬虫案例代码解析-scrapy爬虫项目实战

scrapy全站爬取数据最全实例，赶紧收藏吧

入门必看！mysql数据表添加字段的方法

mysql安装教程mac 怎么安装mysql？

mysql如何启动以及创建数据库？最全攻略来了

scrapy实例进阶篇之下载中间件（三）

scrapy实例进阶篇之下载中间件（二）

最全面mysql如何查询表信息大全！赶快来试试！（上）

干货分享！scrapy爬取图片的详细步骤（二）

干货分享！scrapy全站爬取数据以及crawlspider怎么用

scrapy实例进阶篇之下载中间件（一）

最全面mysql如何查询表信息大全！赶快来试试！（下）

scrapy爬虫案例代码解析-scrapy爬虫项目实战

scrapy全站爬取数据最全实例，赶紧收藏吧

入门必看！mysql数据表添加字段的方法

mysql如何启动以及创建数据库？最全攻略来了

scrapy实例进阶篇之下载中间件（三）

scrapy实例进阶篇之下载中间件（二）

最全面mysql如何查询表信息大全！赶快来试试！（上）