手把手教你使用scrapy框架来爬取北京新发地价格行情（实战篇）

来源：Python爬虫与数据挖掘

作者：霖hero

前言

关于Scrapy理论的知识，可以参考我的上一篇文章，这里不再赘述，直接上干货。

实战演练

爬取分析

首先我们进入北京新发地价格行情网页并打开开发者工具，如下图所示：

经过简单的查找，发现每个getPriceData.html存放着价格行情的数据，由此可得，我们可以通过getPriceData.html来进行数据的获取。

观察Headers请求，如下图所示：

发现它是POST请求，请求URL链接是http://www.xinfadi.com.cn/getPriceData.html，current是翻页的重要参数，limit是每页有多少行数据，我们可以构造消息体，代码如下所示：

data={
'limit': '20',
'current':page
}

通过scrapy.Request()方法将消息体传入到参数里面。

或者我们可以根据测试和观察规律，自己构造URL链接，通过观察分析，请求的URL链接可以为：

http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=1
http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=2
http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t=3

创建Spider爬虫

分析北京新发地价格行情后，接下来我们首先创建一个Scrapy项目，使用如下命令：

scrapy startproject Vegetables

这样我们就成功创建了一个Scrapy项目，项目文件如下所示：

接下来创建spider爬虫，使用如下命令：

scrapy genspider vegetables www.xinfadi.com.cn

创建后vegetables.py内容如下所示：

import scrapy


class VegetablesSpider(scrapy.Spider):
   name = 'vegetables'
   allowed_domains = ['www.xinfadi.com.cn']
   start_urls = ['https://www.xinfadi.com.cn']
   
   def parse(self, response):
       pass

提取数据

在提取数据前，我们首先把要爬取的数据字段在items.py文件中定义好，代码如下所示：

import scrapy


class VegetablesItem(scrapy.Item):
   # define the fields for your item here like:
   productName = scrapy.Field()
   lowPrice=scrapy.Field()
   highPrice=scrapy.Field()

这里我们定义了三个字段分别是productName、lowPrice、highPrice

定义好字段后，接下来将在创建的vegetables.py文件中进行数据的提取，具体代码如下

import scrapy
from Vegetables.items import VegetablesItem


class VegetablesSpider(scrapy.Spider):
   name = 'vegetables'
   allowed_domains = ['www.xinfadi.com.cn']
   def start_requests(self):
       for i in range(1, 3):
           url = f'http://www.xinfadi.com.cn/getPriceData.html?limit=20¤t={i}'
           yield scrapy.Request(url=url, callback=self.parse)


   def parse(self, response):
       html = response.json()
       fooddata = html.get('list')
       for i in fooddata:
           item=VegetablesItem()
           item['highPrice'] =i.get('highPrice'),
           item['lowPrice'] = i.get('lowPrice'),
           item['prodName'] = i.get('prodName'),
           yield item

首先我们导入vegetablesitem，使用start_requests函数实现翻页，大家可以使用刚才我们所讲的方法实现翻页，实现翻页后，我们通过编写parse()方法实现数据的获取，首先我们把引擎响应的数据以json()格式存放在html里面，调用get()方法来提取我们想要的数据，最后通过yield生成器返回给引擎。

最后我们在settings.py设置引擎的启动，代码如下所示：

ITEM_PIPELINES = {
  'Vegetables.pipelines.VegetablesPipeline': 300,
}

在这里我们就不保存数据在MongoDB数据库里面了，我们直接启动Spider爬虫并把数据以csv格式输出，使用如下命令：

scrapy crawl vegetables -o 11.c

运行结果如下：

好了，Scrapy框架爬取北京新发地就讲解到这里了，感谢观看！！！

总结

大家好，我是霖hero。这篇文章基于上篇理论文章，主要给大家分享了Scrapy爬虫框架的实战内容，Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，是提取结构性数据而编写的应用框架，其架构清晰，模块之间的耦合程度低，可扩展性极强。

展开阅读全文

页面更新：2024-05-23

标签：北京价格行情框架爬虫字段实战命令定义代码链接引擎文件方法项目数据科技

1 2 3 4 5

手把手教你使用scrapy框架来爬取北京新发地价格行情（实战篇）

前言

实战演练

爬取分析

创建Spider爬虫

提取数据

总结

Python异常还能写得如此优雅

什么？requests爬虫库明明安装成功了，为啥用不了？

CDA Level Ⅲ 数据分析认证考试模拟题库（十八）

Size安全座椅选购全攻略，除了认证标签还得看懂这些安全指标

如何评价雷鸟9月10日发布的新品S545C？有哪些亮点？

有了iPad Pro，为什么我又买了智能本电子书？

每天半小时，告别办公室久坐，从跑步机开始

专业改造家，威克士WE212手电钻使用评测

一拖四超级快，大功率100W氮化镓充电头值不值得买？

吸尘擦地一次搞定，360洗地机使用体验

奶爸烤肉指南：比手臂还粗的宁夏滩羊腿实战，零失败烤肉秘籍

Belkin帝瓦雷音箱，实现 AirPlay2 全屋音乐无线组网

Macbook Pro高效三屏搭建与iPad Pro另类玩法

魅蓝新机售价曝光，游戏手机或是烟雾弹

独立全智能+双擎长续航！OPPO Watch 2给你无法拒绝的理由

什么？requests爬虫库明明安装成功了，为啥用不了？

CDA Level Ⅲ 数据分析认证考试模拟题库（十八）

奶爸烤肉指南：比手臂还粗的宁夏滩羊腿实战，零失败烤肉秘

CDA Level Ⅲ 数据分析认证考试模拟题库（十九）

Python 协程 asyncio 极简入门与爬虫实战

印度项目耗资36亿，上线就崩溃，宕机3个月！还是12306厉害

实用炫酷！这样写Python代码四两拨千斤

CDA Level I 数据分析认证考试模拟题库（一）

CDA Level I 数据分析认证考试模拟题库（二）

盘点3种Python网络爬虫过程中的中文乱码的处理方法