Python爬虫实战：知音漫客漫画采集

前言

这年头看啥都要会员，各种VIP，没有VIP各种时长广告，就算你开了VIP还会有超级VIP出来，简直无止境【绝对没有内涵谁】，作为一个资深白嫖者，白嫖一时爽，一直白嫖一直爽【咳咳，该用还得开，不要学我】

恰巧同事找我借某平台VIP，看个漫画都要VIP了，于是呢我就给爬了下来，所以就有了这篇文章。为了过审，我把爬取VIP的内容全部去掉了，肯定有人会问，既然爬的都是公开内容，那么我在网站上直接看不就得了？这种问题回多了就没意思了，直接先去看我前面的爬虫教程文章。

废话不多说，直接进入今天的主题

爬取目标

网址：国内知名原创动漫平台_斗破苍穹漫画官网_知音漫客网

效果展示

工具准备

开发工具：pycharm 开发环境：python3.7， Windows11 使用工具包：requests

项目思路解析

选择自己需要的动漫这里辣条选择的是斗破苍穹，动漫看萧炎装X是在太难受了，三年之约硬生生更新了快5年，想办法把它的漫画全给采集了一次到位，搜索需要的漫画名，获取首页的数据信息进行查看，先分析数据是否为加载的动态数据。

需要获取的数据抓包并未获取到，尝试进入漫画页面，看看能不能获取到数据知音漫客的很多数据都是vip的需要付费观看，但是还是会加载出数据信息，数据里依旧会有我们的漫画信息。

所以说付费的内容不可怕，重点能找的到就好了（狗头保命.jpg）当前的数据就是知音漫客的图片地址。

知道数据信息后开始分析目标网址，怎么控制数据的翻页 https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_399h&isWebp=1&quality=middle 翻页的请求可以明显看出是由chapter_newid控制的后面的数字就是目标的章节信息，翻译的网址也能正常构建出来，剩下的就是解析数据保存数据了。

简易源码分享

import requests
import os


def download(img_url_list, title):
    # 每个章节    设定单独的文件夹
    path = '斗破苍穹/' + title
    if not os.path.exists(path):
        os.mkdir(path)
    i = 0
    for img_url in img_url_list:
        res = requests.get(img_url).content
        print(res)
        f = open(path + '/' + str(i) + '.jpg', 'wb')
        f.write(res)
        i += 1
        print(f'正在下载：{title}第{str(i)}张')





def parse_data(url):
    response = requests.get(url).json()
    chapter_name = response['data']['current_chapter']['chapter_name']
    chapter_img_list = response['data']['current_chapter']['chapter_img_list']
    download(chapter_img_list, chapter_name)






if __name__ == '__main__':
    for i in range(30, 800):
        url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)
        parse_data(url)

xxxxxxxxxxbr import requestsbrimport osbr•br•brdef download(img_url_list, title):br    # 每个章节    设定单独的文件夹br    path = '斗破苍穹/' + titlebr    if not os.path.exists(path):br        os.mkdir(path)br    i = 0br    for img_url in img_url_list:br        res = requests.get(img_url).contentbr        print(res)br        f = open(path + '/' + str(i) + '.jpg', 'wb')br        f.write(res)br        i += 1br        print(f'正在下载：{title}第{str(i)}张')br•br•br•br•br•brdef parse_data(url):br    response = requests.get(url).json()br    chapter_name = response['data']['current_chapter']['chapter_name']br    chapter_img_list = response['data']['current_chapter']['chapter_img_list']br    download(chapter_img_list, chapter_name)br•br•br•br•br•br•brif __name__ == '__main__':br    for i in range(30, 800):br        url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)br        parse_data(url)

一个真事：我在一个接单群，有个朋友接了一个爬虫的单，然后进去了【没错就是进局子里了】，事情大概就是他爬取了一个婚恋交友平台网站的一些信息的单子，然后发布这个单子的人，利用这些数据去诈骗获利了，所以我这个朋友也跟着进去了，现在还没结果。

搞爬虫一定要注意界限，遵法守纪！

展开阅读全文

页面更新：2024-05-01

标签：爬虫知音漫画单子苍穹文件夹实战加载目标网址章节内容数据数码动漫平台信息

1 2 3 4 5

Python爬虫实战：知音漫客漫画采集

爬取目标

效果展示

工具准备

项目思路解析

简易源码分享

苹果平板返厂一个月还没有回来怎么办？

苹果x适合升级ios13.4.1吗？

iPhone手机为什么保值率要比华为MATE系列高？

Python、C、Java三大语言学习路线和资源整理

马云卸任演讲：今天不是马云的退休，而是一个制度传承的开始

蔚来股价暴跌、四年烧掉220亿，李斌迎来至暗时刻

《我和我的祖国》这七个真实故事，为什么陈凯歌争议最大

两个残疾小伙携手创业，3个月卖出4000万水果，如今还被专家点名

冯小刚消失这一年：新片低调定档，与华谊兄弟的10亿赌局悬了

《双子杀手》口碑两极分化，65岁的李安到底在折腾什么？

美团上市一周年，王兴骄傲了吗？

“刘强东案”正式开庭！京东据理力争，将于明年一月继续审理

找不到第二个马云，孙正义和他的“愿景”还能撑多久？

任正非度过75周岁生日：还原他真实跌宕的创业人生

《少年的你》四天票房破6亿元，易烊千玺终于有了一部代表作

手机不用了，如何消除里面的数据和信息而又不被人可以恢

小米公布数据，外媒表示不可思议，雷军：这是战略里程碑

国内科技巨头小米正式宣布，全平台销量第一

登记武汉“四类人员”信息的第一天，我失眠了

在家办公第一周：员工24小时待命信息秒回，老板十天内损失

好美的动漫场景插画壁纸，太治愈了

超级治愈的动漫壁纸，心情一下子就好起来了

超好看的卡通动漫头像，小仙女都已经用上啦

小清新治愈动漫插画壁纸，那时青春正年少

高校院校壁纸，目标相同的来搭个伙吧