2种方法,教你轻松学会scrapy框架

我们上节课通过一个案例基本了解了scrapy框架爬取数据的基本流程,这节课我们通过爬取链家网房源标题信息,来加深scrapy框架的理解,同时上节课我们保存的方式,我们设置的parse必须有返回值才能够保存,这节课我们通过管道存储方式,来爬取我们想要的数据信息。


1.scrapy框架爬取数据的步骤


其中前三步我们上节课有提到,大家可以试着先操作一下。


第一步,新建文件夹


通过终端指令(scrapy+startproject+文件名),我们新建一个名为(house)的文件夹


2种方法,教你轻松学会scrapy框架


第二步,新建爬虫文件


我们继续通过终端指令(scrapy+genspider+文件名+通用域名),我们新建一个名为(rent)的爬虫文件


2种方法,教你轻松学会scrapy框架


第三步,修改爬虫代码


打开爬虫文件(rent.py),我们修改我们需要爬取的网址,并进行数据解析,解析方式与requests解析几乎一致,只是需要加一个extract方法以及join方法,如下,这样我们就获得了我们想要的数据信息。但是我们接下来要通过管道保存数据


2种方法,教你轻松学会scrapy框架


第四步,管道保存数据


1)管道保存数据这一步稍微复杂一点,我们需要先将解析的数据,实例化给item,通过item再传给管道,因此,item尤为关键,首先打开文件夹(items.py),将我们上一步解析到的数据进行属性的设定,如下图:


2种方法,教你轻松学会scrapy框架

2种方法,教你轻松学会scrapy框架


2)然后解析数据(tt)实例化给item


2种方法,教你轻松学会scrapy框架


3)进入文件(pipelines)进行如下设置,通过定义开始爬虫,新建一个“house.txt”文件夹,然后将item文件传给管道,再通过结束爬虫,关闭文件夹。


2种方法,教你轻松学会scrapy框架


4)打开(setting)文件夹,设置user-agent的值,以及robot的值,以及管道这个参数(找到该参数将井号去掉即可)


2种方法,教你轻松学会scrapy框架

2种方法,教你轻松学会scrapy框架


第五步,运行代码


在终端输入,scrapy crawl +爬虫文件名,运行


2种方法,教你轻松学会scrapy框架


展开阅读全文

页面更新:2024-05-12

标签:框架   爬虫   终端   文件名   指令   文件夹   管道   实例   参数   轻松   代码   方式   文件   方法   数据   科技   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top