Python爬虫-使用Scrapy框架爬取某网站热点新闻排行并保存数据库

【背景】

今天使用Scrapy来爬取某网站热点新闻榜单，因可能的版权原因，里面的数据和网址都做了脱敏处理。
要爬取的新闻热点排行页面如下：

爬下来的数据如下所示：

数据分别是：序号、热点标题、热点内容、热点URL链接、热点排行、热度值
图片和数据对应不上的原因是，热点新闻的截图是我写博客的时候才截图的，数据是前几天爬取的。

在这之前我们先了解一下什么是Scrapy

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便
Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求

一、安装Scrapy

执行pip命令安装

pip install scrapy

二、生成爬虫框架

执行以下命令

scrapy startproject baidu_spider

生成的框架如下所示：

各文件功能分别是：

scrapy.cfg：配置文件
spiders：存放你Spider文件，也就是你爬取的py文件
items.py：相当于一个容器，和字典较像
middlewares.py：定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现
pipelines.py:定义Item Pipeline的实现，实现数据的清洗，储存，验证。
settings.py：全局配置

三、生成爬虫

scrapy genspider baidu baidu.com

结果如下

四、补全代码

在settings.py中增加如下配置项

ITEM_PIPELINES = {
   "baidu_spider.pipelines.BaiduSpiderPipeline": 300,
   "baidu_spider.pipelines.BaiduSpiderPrintPipeline": 200
}

MYSQL_HOST='localhost'
MYSQL_USER='xxxx'
MYSQL_PWD='xxxx'
MYSQL_DB='xxxx'
MYSQL_CHARSET='utf8'

pipelines对应的是两个解析后的网页数据输出管道，后面有交代

baidu.py中的代码补全后如下：

import scrapy
from baidu_spider.items import BaiduSpiderItem

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    allowed_domains = ["www.baidu.com"]
    start_urls = ["https://top.xxxx.com/board?tab=realtime"]

    def parse(self, response):
        filename = "baidu_realtime.html"
        # open(filename, 'wb+').write(response.body)
        items = []

        for each in response.xpath('//*[@id="sanRoot"]/main/p[2]/p/p[2]/p'):
            item = BaiduSpiderItem()
            title = each.xpath('p[2]/a/p[1]/text()').extract()
            content = each.xpath('(p[2]/p[1]/text())[1]').extract()
            url = each.xpath('p[2]/a/@href').extract()
            hot = each.xpath('p[1]/p[2]/text()').extract()
            rank = each.xpath('a/p[1]/text()').extract()

            # print("title::::::::$title")
            # print("content::::::::$content")
            # print("url::::::::$url")
            # print("rank::::::::$rank")

            item['title'] = title
            item['content'] = content
            item['url'] = url
            item['rank'] = rank
            item['hot'] = hot

            yield item
            # items.append(item)

        # return items

其中start_urls就是要爬取的网页

parse(self, response)函数就是对网页内容进行解析

items.py补全后的代码如下：

import scrapy


class BaiduSpiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # pass
    title = scrapy.Field()
    url = scrapy.Field()
    content = scrapy.Field()
    rank = scrapy.Field()
    hot = scrapy.Field()

这里定义了热点新闻解析后，需要获取的指标

管道pipelines.py中的代码如下：

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface

from itemadapter import ItemAdapter
import pymysql
from baidu_spider.settings import *

class BaiduSpiderPrintPipeline:
    def process_item(self, item, spider):
        print(item['title'],item['content'],item['url'],item['rank'],item['hot'])
        return item

class BaiduSpiderPipeline:
    def open_spider(self, spider):
        self.db = pymysql.connect(
            host=MYSQL_HOST,
            user=MYSQL_USER,
            password=MYSQL_PWD,
            database=MYSQL_DB,
            charset=MYSQL_CHARSET
        )
        self.cursor = self.db.cursor()

    def process_item(self, item, spider):
        insert_sql = "insert into spider_baidu_news(title, content, url, rank, hot) values (%s, %s, %s, %s, %s)"
        insert_parms = [item['title'],item['content'],item['url'],item['rank'],item['hot']]
        self.cursor.execute(insert_sql, insert_parms)
        self.db.commit()

        return item

    def close_spider(self, spider):
        self.cursor.close()
        self.db.close()
        print('执行了close_spider方法,项目已经关闭')

主要是定义了两个输出管道类，BaiduSpiderPrintPipeline和BaiduSpiderPipeline

每个管道里面可以重写以下三个方法：

def open_spider(self, spider): 处理数据前执行，只执行一次，用于连接数据库之类的操作，避免每次写数据之前都要连接数据库；
def process_item(self, item, spider): 处理数据，没条数据都会调用一次；
def close_spider(self, spider): 处理数据后执行，只执行一次，用于释放数据库连接、关闭文件之类的操作；

五、运行代码

运行命令如下

scrapy crawl baidu -o  realtime.csv

-o：是把管道数据输出到文件

也可以在工程跟目录下生成一个main.py，免的每次在命令行执行

from scrapy import cmdline

cmdline.execute('scrapy crawl baidu -o realtime.csv'.split())

执行后数据库中已经可以看到数据：

csv文件中数据如下：

五、总结

可以看到，整个代码框架还是非常简洁清晰的，很多Python初学者，都是把所有的逻辑写在一个文件里面，这样会导致代码非常凌乱，找起代码来非常困难，有了Scrapy后，就没有这个烦恼了，Scrapy已经把整个框架规划好了，我们只要补全业务代码就可以了。

展开阅读全文

页面更新：2024-02-29

标签：爬虫热点新闻框架热点管道定义代码数据库网页文件数据网站

1 2 3 4 5

AI机器人的ChatGPT？马斯克发布了特斯拉“擎天柱”的最新进展

特斯拉在股东大会上发布了人形机器人Optimus“擎天柱”的最新进展，引起了广泛关注。在发布会上展示的演示视频中，Optimus已经可以流畅地完成一系列动作，包括走路，并且利用视觉学习周围的环境。其手臂力道控制精确，可以轻松

闹大了，禁售美光后，美国展开了新一轮报复，涉及13家企业

5月下旬，我国公布了对美光的审查结果，其产品存在网络安全问题被禁售，并勒令相关信息基建公司停止采购。也是受此影响，美光受到了不小的损失。面对中国的首次有理有据的“亮剑”，美国坐不住了。称这是中国的报复，严重违反了

金融业务中的AI：机会和挑战

ChatGPT是一款生成式人工智能应用程序，它在发布后的五天内拥有超过一百万的用户，两个月内就拥有了1亿用户，打破了历史上增长最快的消费者应用程序的记录。生成式人工智能在几乎所有领域都起了热潮，包括金融领域。Bloombe

伯明翰市议会Oracle云ERP项目的失败教训

近日，英国伯明翰市议会投入使用一套价值8.7亿元人民币的Oracle云系统，意图简化公共服务支付。然而，这个项目却遭遇重大失败，投入和推迟时间暴涨，功能不全，性能差，相关责任不清，管理不善，人员离职，令人担忧账目问题，必须花费惊人

近期脑机接口炒得火热，到底何时能实现机器读取大脑信息？

脑机接口（Brain-Computer Interface，BCI）是一种技术，旨在建立一种直接的连接，将人脑与计算机或其他外部设备进行交互。尽管脑机接口的研究和开发仍在进行中，但已经取得了一些重要进展。脑机接口技术的实现取决于多种因素，下

苹果多年布局，沉浸式“现场音乐会”将成为首款头显关键卖点之一

IT之家 6 月 3 日消息，根据国外科技媒体 9to5Mac 报道，苹果首款 AR / VR 头显的“杀手级”应用之一，是虚拟音乐会。报道称苹果在多年前就开始筹划这项功能，用户不会出现明显的抽离感，无论是现场直播还是预先录制，都能提供身

WebRTC.Net库：让你的应用更亲民友好，实现视频通话无痛接入！

WebRTC.Net库简介WebRTC.Net是基于.NET平台的WebRTC库，提供了用于音视频通信和直播的API。它支持Windows，Linux和macOS等多种操作系统，并提供了C#和C++两个版本的API接口。WebRTC.Net库的使用场景WebRTC.Net可应用于语音

日本正式亮剑，学习欧盟要求苹果开放侧载，国内网友怎么看？

据外媒报道，日本决定将在近期对大型科技企业立法，其中包括要求苹果减少iOS垄断，开放第三方应用商店，新规定还要求谷歌不得偏袒自家服务。以上规定每一条都剑指美国科技巨头，不少网友拍手称快，继欧盟之后又一个国家决定向苹

科技奇迹，钱学森复活，什么技术能让人起死回生

最近在举办的2023中关村论坛上，钱学森以数字人的形式现身。已经逝世十四年之久的钱学森先生在论坛上带着vr设备、观看神舟飞船起飞、乘坐无人驾驶的汽车并且和到场的相关专家学者相互交流回答问题。这是怎么回事呢？原来

动力电池回收产业驶入快车道上市公司掘金新蓝海

日前，工信部节能与综合利用司组织召开动力电池回收利用管理办法研讨会，加强动力电池回收利用管理。业内人士表示，在新能源汽车渗透率逐步提升、环保要求愈发提高及动力电池退役量不断增加等因素综合作用下，动力电池回收产

电商发展急需按下暂停键

移动电商的崛起：随着智能手机的普及和移动互联网技术的发展，移动电商迅速崛起。消费者越来越多地通过手机进行在线购物，移动端的销售额持续增长。智能手机的普及使得人们可以随时随地进行在线购物，促进了移动电商的兴起社

德国两个风力发电场风力涡轮机噪声对地震记录影响的分析

本文描述了控制垂直式风力涡轮机产生的翼尖漩涡的方法，该风力涡轮机由三个圆柱体组成，每个圆柱体都在自己的垂直轴上旋转并做运动轨迹。众所周知，翼尖漩涡会导致发电性能降低以及空气动力噪声，因此本研究的目标是控制翼尖

古尔曼分享苹果首款头显细节：M2芯片、16GB内存，提供眼镜夹片

IT之家 6 月 3 日消息，彭博社马克・古尔曼在最新一期 Power On 时事通讯中，再次分享了关于苹果 Reality Pro 头显的一些新细节。IT之家援引彭博社报道，汇总细节信息如下：名称：古尔曼称苹果首款头显有 Reality Pro、Reality

红米到底怎么了？8G+512G大存储才1799元？

近年来，随着智能手机的普及和功能的不断升级，消费者对于手机存储空间的需求也越来越高。而在这样的市场背景下，红米作为一款性价比极高的手机品牌，其8G+512G大存储版本的价格却只有1799元，引起了广泛的关注和讨论。首先，我

国家动真格了！全国近100个城市出台新政策促卖房，释放什么信号

国家动真格的了！据媒体报道，截至目前全国已经有近100个城市相继出台了公积金新政策，支持房地产消费。中指监测数据也显示，今年以来各地出台的公积金相关政策已经超过了100次。这其中，既包括公积金支付首付、提高贷款上限、

上滑加载更多 ↓