我用Python抓取了「S11全球总决赛」直播评论,EDG nb

《爬虫100例实战案例》又来了,昨天兄弟萌看直播了吗,一句话EDG牛掰就完事了。


四强的时候
T1:我是三冠王
GENG:我是双冠王
DK:我是去年世界冠军
EDG:本来想以第一次进四强的身份和你们相处,没想到得到的却是疏远。不装了!摊牌了!我是今年世界冠军!


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


爬取数据目标


网站:bilibili


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


效果展示


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


工具使用


开发工具:pycharm 开发环境:python3.7, Windows10 使用工具包:requests,threading, csv


重点学习内容



项目思路解析


找到你需要采集的视频地址(EDG牛逼!!!!)


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


网址:【S11全球总决赛】决赛 11月6日 EDG vs DK_哔哩哔哩bilibili_英雄联盟


爬虫采集数据首先要找到对应的数据目标地址,可以明显看出当前的网页的评论数据是在不断变化的,需要找到对应的评论接口,习惯性的去找动态数据。


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


数据并没有在动态数据里,清空数据加载新的评论数据,触发加载条件。


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


我用Python抓取了「S11全球总决赛」直播评论,EDG nb


加载的数据在all里,明确数据之后就好处理了,获取到对应的网页接口,通过requests发送网络请求。


    url = 'https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next={}&type=1&oid=891511588&mode=3&plat=1&_=1636272184444'.format(i)
​
    response = requests.get(url)
    print(response.text)
xxxxxxxxxxbr     url = 'https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next={}&type=1&oid=891511588&mode=3&plat=1&_=1636272184444'.format(i)br•br    response = requests.get(url)br    print(response.text)





数据请求失败请求头没有做反爬策略 添加对应的ua,以及refere 主要是防盗链的请求头措施,在浏览器请求也是得不到数据的,获取到准确的数据,提取自己想要的数据信息。



处理json数据时要注意, json数据前有jQuery1720892078778784086_1627994582044 可以通过正则的方式进行匹配提取 这里我选择修改url的参数 讲网址的jQuery1720892078778784086_1627994582044进行删除 最终的网址是:


https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next={}&type=1&oid=891511588&mode=3&plat=1&_=1636272184444
xxxxxxxxxxbr https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next={}&type=1&oid=891511588&mode=3&plat=1&_=1636272184444




获取到数据后进行数据保存,数据保存在csv文件。


def save_data(item):
    with open('小破站1.csv', "a", newline='', encoding="utf-8")as f:
        filename = ['content', 'ctime', 'sex', 'uname', 'sign']
        csv_data = csv.DictWriter(f, fieldnames=filename)
        csv_data.writerow(item)
​
xxxxxxxxxxbr def save_data(item):br    with open('小破站1.csv', "a", newline='', encoding="utf-8")as f:br        filename = ['content', 'ctime', 'sex', 'uname', 'sign']br        csv_data = csv.DictWriter(f, fieldnames=filename)br        csv_data.writerow(item)br•



简易源码分享


import requests
import csv
​
def save_data(item):
    with open('EDG牛逼!.csv', 'a', newline='', encoding='utf-8')as f:
​
        filename = ['content', 'uname', 'sign', 'sex']
        csv_data = csv.DictWriter(f, fieldnames=filename)
        # csv_data.writeheader()
        csv_data.writerow(item)
​
​
​
def get_data(url):
​
    headers = {
        'referer': 'https://www.bilibili.com/bangumi/play/ss5852/?from=search&seid=6248919601957945511',
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
​
    response = requests.get(url, headers=headers).json()
    item = {}
    for data in response['data']['replies']:
        item['content'] = data['content']['message'].strip()
        # print(content)
        item['uname'] = data['member']['uname']
        item['sign'] = data['member']['sign']
        item['sex'] = data['member']['sex']
        # print(item)
        save_data(item)
​
if __name__ == '__main__':
    for i in range(1, 3):
        url = 'https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next={}&type=1&oid=891511588&mode=3&plat=1&_=1636272184444'.format(i)
        html = get_data(url)
xxxxxxxxxxbr import requestsbrimport csvbr•brdef save_data(item):br    with open('EDG牛逼!.csv', 'a', newline='', encoding='utf-8')as f:br•br        filename = ['content', 'uname', 'sign', 'sex']br        csv_data = csv.DictWriter(f, fieldnames=filename)br        # csv_data.writeheader()br        csv_data.writerow(item)br•br•br•brdef get_data(url):br•br    headers = {br        'referer': 'https://www.bilibili.com/bangumi/play/ss5852/?from=search&seid=6248919601957945511',br        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',br        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',br    }br•br    response = requests.get(url, headers=headers).json()br    item = {}br    for data in response['data']['replies']:br        item['content'] = data['content']['message'].strip()br        # print(content)br        item['uname'] = data['member']['uname']br        item['sign'] = data['member']['sign']br        item['sex'] = data['member']['sex']br        # print(item)br        save_data(item)br•brif __name__ == '__main__':br    for i in range(1, 3):br        url = 'https://api.bilibili.com/x/v2/reply/main?jsonp=jsonp&next={}&type=1&oid=891511588&mode=3&plat=1&_=1636272184444'.format(i)br        html = get_data(url)



2012,一个卡牌,一个雷恩加尔,一群红衣少年的欢声笑语。
2013,一个杰斯,一个扎克,一场支离破碎的梦境。
2014,一个螳螂,一个兰博,一座摇摇欲坠的基地。
2015,一个寡妇,一个妖姬,一本永远叠不上去的梅贾窃魂卷。
2016,一个盲僧,一个奥拉夫,一串耻辱的数字。
2017,一个克格莫,一个青钢影,一个赛区绝境中最后的救赎。
2018,一个刀妹,一个剑魔,一个至高无上的尊严。
2019,一个泰坦,一个盲僧,一个浴火重生的凤凰。
2020,一个船长,一个剑姬,一个杀戮无法弥补的遗憾。
2021,一个皇子,一个佐伊,一个挽大厦于将倾的骑士。

展开阅读全文

页面更新:2024-04-16

标签:雷恩   大佬   爬虫   皇子   加载   接口   目标   地址   网址   网页   文件   作者   内容   动态   数据   数码   全球

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top