爬虫实战 - 基于Session和Cookie的模拟登录爬取（一）

案例介绍

这里有一个网站是https://login2.scrape.center/，访问这个网站，会打开如下图所示的登录页面，要获取网站里面的数据，必须先登录才可以：

这个网站是传统的MVC模式开发的，因此比较适合基于Session和Cookie的模式模拟登录。

我们输入用户名和密码点击登录后，浏览器发起了一个POST请求，目标URL 是https://login2.scrape.center/login，并通过表单提交的方式向服务器提交了登录数据，其中包括username和password两个字段，然后调用get方法请求网站首页来获取页面内容，要想get请求能够获取到内容，两次请求的Cookie必须相同，这里可以借助requests内置的Session对象帮我们自动处理Cookie，使用Session对象之后，requests会自动保存每次请求后设置的Cookie，并在下次请求时携带上它，这样就能获取网站的信息。

程序代码



import requests
from urllib.parse import urljoin


BASE_URL = 'https://login2.scrape.center/'
LOGIN_URL = urljoin(BASE_URL, '/login')
INDEX_URL = urljoin(BASE_URL, '/page/1')
USERNAME = 'admin'
PASSWORD = 'admin'


#定义Session对象
session = requests.Session()
#发出POST请求
response_login = session.post(LOGIN_URL, data={
  'username': USERNAME,
  'password': PASSWORD
})


cookies = session.cookies
print('Cookies', cookies)
#获取首页的数据
response_index = session.get(INDEX_URL)
print('Response Status', response_index.status_code)
print('Response URL', response_index.url)

展开阅读全文

页面更新：2024-05-22

标签：爬虫字段表单首页实战程序代码对象模式页面内容数据网站

1 2 3 4 5

爬虫实战 - 基于Session和Cookie的模拟登录爬取（一）

案例介绍

程序代码

印章绑在裤腰带上的老李，羡慕死了周鸿袆

飞书如何保持自身的先进性？

制造业“智改数转”成“必答题”

呼和浩特市今年将在公共领域建设7000个充电桩

服务端缓存测试

走进中小微看经济活力｜云鲸智能：打造清洁机器人行业的“新智造样本”

底部反转叠加政策增强：网络可视化迎来新发展周期

无视美国禁令威胁，百事、亚马逊、苹果等广告主仍在增加TikTok广告支出

ChatGPT Plus停售，算力需求凸显

三分钟读懂Java函数式编程（FP）的意义所在

“数据跑路”代替“群众跑腿”，山东已累计减少提交证明超2160万次

202306凯盛-大蒜行情

这油价到底是怎么从五六块涨到八九块的，一分钟说明白#汽油

贵州茅台副总涂华彬年薪93.78万高卫东调走后提拔他的

银行危机大赢家出现！对冲基金卖空银行3月份狂赚70亿美元

“数据跑路”代替“群众跑腿”，山东已累计减少提交证明

Docker数据卷的使用

大数据扫黄，如何进行有罪推定？浏览不良网站或广告也不行

360董事长周鸿祎为什么离婚？教你用更少的数据做出更好

「全民拼购」拼团模式的核心玩法，你知道吗？

华强北全新S8智能手表超大屏幕，计步器／多运动模式／...

淘宝要开“特卖”？“9.9”包邮将再登淘宝首页

「龙腾网」作为一名数据科学家，如何解决这个真实的业务

埃安席忠民：只要自燃数据不归零，安全变革就永无止境

中国滑冰协会主席李琰：建立科学有效训练模式储备优秀