Python爬虫实战:知音漫客漫画采集

前言


这年头看啥都要会员,各种VIP,没有VIP各种时长广告,就算你开了VIP还会有超级VIP出来,简直无止境【绝对没有内涵谁】,作为一个资深白嫖者,白嫖一时爽,一直白嫖一直爽【咳咳,该用还得开,不要学我】


恰巧同事找我借某平台VIP,看个漫画都要VIP了,于是呢我就给爬了下来,所以就有了这篇文章。为了过审,我把爬取VIP的内容全部去掉了,肯定有人会问,既然爬的都是公开内容,那么我在网站上直接看不就得了?这种问题回多了就没意思了,直接先去看我前面的爬虫教程文章。


废话不多说,直接进入今天 的主题


Python爬虫实战:知音漫客漫画采集


爬取目标


网址:国内知名原创动漫平台_斗破苍穹漫画官网_知音漫客网


Python爬虫实战:知音漫客漫画采集


效果展示


Python爬虫实战:知音漫客漫画采集


工具准备


开发工具:pycharm 开发环境:python3.7, Windows11 使用工具包:requests


项目思路解析


选择自己需要的动漫这里辣条选择的是斗破苍穹,动漫看萧炎装X是在太难受了,三年之约硬生生更新了快5年,想办法把它的漫画全给采集了一次到位,搜索需要的漫画名,获取首页的数据信息进行查看,先分析数据是否为加载的动态数据。


Python爬虫实战:知音漫客漫画采集



需要获取的数据抓包并未获取到,尝试进入漫画页面,看看能不能获取到数据 知音漫客的很多数据都是vip的需要付费观看,但是还是会加载出数据信息,数据里依旧会有我们的漫画信息。



所以说付费的内容不可怕,重点能找的到就好了(狗头保命.jpg) 当前的数据就是知音漫客的图片地址。




知道数据信息后开始分析目标网址,怎么控制数据的翻页 https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_399h&isWebp=1&quality=middle 翻页的请求可以明显看出是由chapter_newid控制的后面的数字就是目标的章节信息,翻译的网址也能正常构建出来,剩下的就是解析数据保存数据了。


简易源码分享


import requests
import os
​
​
def download(img_url_list, title):
    # 每个章节    设定单独的文件夹
    path = '斗破苍穹/' + title
    if not os.path.exists(path):
        os.mkdir(path)
    i = 0
    for img_url in img_url_list:
        res = requests.get(img_url).content
        print(res)
        f = open(path + '/' + str(i) + '.jpg', 'wb')
        f.write(res)
        i += 1
        print(f'正在下载:{title}第{str(i)}张')
​
​
​
​
​
def parse_data(url):
    response = requests.get(url).json()
    chapter_name = response['data']['current_chapter']['chapter_name']
    chapter_img_list = response['data']['current_chapter']['chapter_img_list']
    download(chapter_img_list, chapter_name)
​
​
​
​
​
​
if __name__ == '__main__':
    for i in range(30, 800):
        url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)
        parse_data(url)
xxxxxxxxxxbr import requestsbrimport osbr•br•brdef download(img_url_list, title):br    # 每个章节    设定单独的文件夹br    path = '斗破苍穹/' + titlebr    if not os.path.exists(path):br        os.mkdir(path)br    i = 0br    for img_url in img_url_list:br        res = requests.get(img_url).contentbr        print(res)br        f = open(path + '/' + str(i) + '.jpg', 'wb')br        f.write(res)br        i += 1br        print(f'正在下载:{title}第{str(i)}张')br•br•br•br•br•brdef parse_data(url):br    response = requests.get(url).json()br    chapter_name = response['data']['current_chapter']['chapter_name']br    chapter_img_list = response['data']['current_chapter']['chapter_img_list']br    download(chapter_img_list, chapter_name)br•br•br•br•br•br•brif __name__ == '__main__':br    for i in range(30, 800):br        url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)br        parse_data(url)



一个真事:我在一个接单群,有个朋友接了一个爬虫的单,然后进去了【没错就是进局子里了】,事情大概就是他爬取了一个婚恋交友平台网站的一些信息的单子,然后发布这个单子的人,利用这些数据去诈骗获利了,所以我这个朋友也跟着进去了,现在还没结果。


搞爬虫一定要注意界限,遵法守纪!​

展开阅读全文

页面更新:2024-05-01

标签:爬虫   知音   漫画   单子   苍穹   文件夹   实战   加载   目标   网址   章节   内容   数据   数码   动漫   平台   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top