前言
这年头看啥都要会员,各种VIP,没有VIP各种时长广告,就算你开了VIP还会有超级VIP出来,简直无止境【绝对没有内涵谁】,作为一个资深白嫖者,白嫖一时爽,一直白嫖一直爽【咳咳,该用还得开,不要学我】
恰巧同事找我借某平台VIP,看个漫画都要VIP了,于是呢我就给爬了下来,所以就有了这篇文章。为了过审,我把爬取VIP的内容全部去掉了,肯定有人会问,既然爬的都是公开内容,那么我在网站上直接看不就得了?这种问题回多了就没意思了,直接先去看我前面的爬虫教程文章。
废话不多说,直接进入今天 的主题
网址:国内知名原创动漫平台_斗破苍穹漫画官网_知音漫客网
开发工具:pycharm 开发环境:python3.7, Windows11 使用工具包:requests
选择自己需要的动漫这里辣条选择的是斗破苍穹,动漫看萧炎装X是在太难受了,三年之约硬生生更新了快5年,想办法把它的漫画全给采集了一次到位,搜索需要的漫画名,获取首页的数据信息进行查看,先分析数据是否为加载的动态数据。
需要获取的数据抓包并未获取到,尝试进入漫画页面,看看能不能获取到数据 知音漫客的很多数据都是vip的需要付费观看,但是还是会加载出数据信息,数据里依旧会有我们的漫画信息。
所以说付费的内容不可怕,重点能找的到就好了(狗头保命.jpg) 当前的数据就是知音漫客的图片地址。
知道数据信息后开始分析目标网址,怎么控制数据的翻页 https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_399h&isWebp=1&quality=middle 翻页的请求可以明显看出是由chapter_newid控制的后面的数字就是目标的章节信息,翻译的网址也能正常构建出来,剩下的就是解析数据保存数据了。
import requests
import os
def download(img_url_list, title):
# 每个章节 设定单独的文件夹
path = '斗破苍穹/' + title
if not os.path.exists(path):
os.mkdir(path)
i = 0
for img_url in img_url_list:
res = requests.get(img_url).content
print(res)
f = open(path + '/' + str(i) + '.jpg', 'wb')
f.write(res)
i += 1
print(f'正在下载:{title}第{str(i)}张')
def parse_data(url):
response = requests.get(url).json()
chapter_name = response['data']['current_chapter']['chapter_name']
chapter_img_list = response['data']['current_chapter']['chapter_img_list']
download(chapter_img_list, chapter_name)
if __name__ == '__main__':
for i in range(30, 800):
url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)
parse_data(url)
xxxxxxxxxxbr import requestsbrimport osbr•br•brdef download(img_url_list, title):br # 每个章节 设定单独的文件夹br path = '斗破苍穹/' + titlebr if not os.path.exists(path):br os.mkdir(path)br i = 0br for img_url in img_url_list:br res = requests.get(img_url).contentbr print(res)br f = open(path + '/' + str(i) + '.jpg', 'wb')br f.write(res)br i += 1br print(f'正在下载:{title}第{str(i)}张')br•br•br•br•br•brdef parse_data(url):br response = requests.get(url).json()br chapter_name = response['data']['current_chapter']['chapter_name']br chapter_img_list = response['data']['current_chapter']['chapter_img_list']br download(chapter_img_list, chapter_name)br•br•br•br•br•br•brif __name__ == '__main__':br for i in range(30, 800):br url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)br parse_data(url)
一个真事:我在一个接单群,有个朋友接了一个爬虫的单,然后进去了【没错就是进局子里了】,事情大概就是他爬取了一个婚恋交友平台网站的一些信息的单子,然后发布这个单子的人,利用这些数据去诈骗获利了,所以我这个朋友也跟着进去了,现在还没结果。
搞爬虫一定要注意界限,遵法守纪!
页面更新:2024-05-01
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号