手把手教你用 pandas 分析可视化东京奥运会数据

来源:早起Python

作者:刘早起

本文将基于东京奥运会奖牌榜数据,使用 pandas 进行数据分析可视化实战(文末可以下载数据与源码)

数据读取

首先是奥运会奖牌数据的获取,虽然有很多接口提供数据,但是通过奥运会官网拿到的数据自然是最可靠的

手把手教你用 pandas 分析可视化东京奥运会数据

通过对东京奥运会官网奖牌榜的页面分析,发现其表格在前端是通过

嵌入的,所以可以使用 pandas.read_html() 轻松读取

df1 = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]
手把手教你用 pandas 分析可视化东京奥运会数据

之后再读取本地分日奖牌数据并将国家ID进行匹配

df2 = pd.read_csv("东京奥运会奖牌分日数据.csv")
手把手教你用 pandas 分析可视化东京奥运会数据

修改列名

注意到上面的 df1 列名并没有完整,所以可以使用 rename 函数修改指定列的名称

df1.rename(columns={'Unnamed: 2':'金牌数',
                  'Unnamed: 3':'银牌数',
                  'Unnamed: 4':'铜牌数'},inplace=True) 

数据类型查看与修改

既然 df2 有时间列,为了方便后面分析,自然要检查一下其类型

df2.info()
手把手教你用 pandas 分析可视化东京奥运会数据

可以看到,获奖时间列虽然没有缺失值但其并不是pandas支持的时间类型。

好在修改列属性并不是什么困难的事情,一行代码轻松搞定(7-12

df2['获奖时间'] = pd.to_datetime(df2['获奖时间'])

数据合并

通过观察可以发现,df2并没有 国家名称 列,但是其与 df1 有一个共同列 国家id

手把手教你用 pandas 分析可视化东京奥运会数据

为了给 df2 新增一列 国家名称 列,一个自然的想法就是通过 国家id 列将两个数据框进行合并,在 pandas 中实现,也不是什么困难的事情

temp = pd.merge(df1,df2,on = '国家id') #先合并
temp['获奖时间'] = pd.to_datetime(temp['获奖时间'])#修改类型
temp = temp.sort_values(by=['获奖时间','奖牌类型'], ascending=True, ignore_index=True)#排序,和df2一样
df2['国家'] = temp['国家奥委会']#赋值
手把手教你用 pandas 分析可视化东京奥运会数据

现在 df2 就调整的差不多了(由于源数据问题,部分获奖时间与真实时间有一定误差),下面开始进行分析

数据分组

下面对 df2 进行一些统计分析,计算每个国家的奖牌总数(也就是出现次数),并查看奖牌数前5名,结果可以用 df1 进行验证

手把手教你用 pandas 分析可视化东京奥运会数据

数据统计

看完国家奖牌排行,接下来计算获得奖牌最多的运动员(注意:仅统计单人项目)

手把手教你用 pandas 分析可视化东京奥运会数据

这里无需使用分组功能,只需要按照运动员姓名列进行频率统计即可。

数据筛选

下面筛选出全部乒乓球的获奖信息,这里的筛选有多种写法,你能写出几种?

手把手教你用 pandas 分析可视化东京奥运会数据

数据透视

现在查看各国在各项目上的奖牌详情,下面是通过透视得到的答案,但你会使用使用数据分组功能吗?

pd.pivot_table(df2,values = ['奖牌类型'],index = ['国家','运动类别'],aggfunc = 'count')
手把手教你用 pandas 分析可视化东京奥运会数据

数据查询

在上一题的基础上,查询中国队的获奖牌详情,注意是查询而不是筛选,所以使用上上一题的方法将会报错

result.query("国家 == ['中国']")

个性化查看

如何将上一题的结果进一步突出展示,可以使用 pandas 中的 style

(result.query("国家 == ['中国']")
.style
.bar(subset=['奖牌类型'],color='skyblue'))
手把手教你用 pandas 分析可视化东京奥运会数据

数据格式化

上面说到,df2 的获奖时间部分并不准确(主要体现在小时上),所以我们干脆将时间精确到天,这里可以使用 map 对一整列进行操作

def time_format(x):
    
    return x.strftime("%m月%d日")

df2['获奖时间'] = df2['获奖时间'].map(time_format)

分组统计

接下来,让我们统计每天产生的奖牌总数

df2.groupby("获奖时间")['国家'].count().sort_values()
手把手教你用 pandas 分析可视化东京奥运会数据

可以看到,最后一天产生的奖牌数量最多

数据透视

再来查看不同项目在不同国家的分布情况,同样也可以使用分组功能实现

pd.pivot_table(df2,values = ['奖牌类型'],index = ['运动类别','国家'],aggfunc = 'count')
手把手教你用 pandas 分析可视化东京奥运会数据

数据计算

接下来让我们计算中国每日总奖牌数量,你能想到该如何实现吗?

pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间','国家'],aggfunc = 'count').query("国家 == ['中国']").cumsum()
手把手教你用 pandas 分析可视化东京奥运会数据

数据计算

最后,计算前十名各国每日奖牌数量统计,注意:对于第一天没有数据的国家用0填充,其余时间的缺失值用上一日数据填充。

这看似简单的问题,涉及的 pandas 操作还真不少!

data = pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间','国家'],aggfunc = 'count').query("国家 == ['美国', '中国', '日本', '英国', 'ROC', '澳大利亚', '荷兰', '法国', '德国', '意大利']")
data = data.unstack()
data.columns = data.columns.get_level_values(1)
data.columns.name = None
data = data.cumsum()
data = data.fillna(axis=0,method='ffill').fillna(0)
data

条形图

首先制作奖牌排行榜

手把手教你用 pandas 分析可视化东京奥运会数据

上图使用 matplotlib 制作,看起来不错,但代码量也确实不少

手把手教你用 pandas 分析可视化东京奥运会数据

堆叠图

接下来使用 pyecharts 绘制上一题奖牌榜各奖牌的细分

手把手教你用 pandas 分析可视化东京奥运会数据

使用 pyecharts 的好处就是使用封装好的方法,代码量相对较少

手把手教你用 pandas 分析可视化东京奥运会数据

环形图

现在进一步绘制中国队的奖牌分布

手把手教你用 pandas 分析可视化东京奥运会数据

同样使用 pyecharts ,实际行代码搞定

手把手教你用 pandas 分析可视化东京奥运会数据

地图

现在绘制奖牌分布的热力地图

手把手教你用 pandas 分析可视化东京奥运会数据

使用 pyecharts 绘制,绘图代码不多,但是调整国家中英文映射字典是一件痛苦的事情

手把手教你用 pandas 分析可视化东京奥运会数据

动态图

最后绘制每日奖牌榜前十奖牌数量的动态图,使用 matplotlibpyecharts 均得不到较好的效果,所以这里使用另一个第三方库 bar_chart_race 进行绘制

手把手教你用 pandas 分析可视化东京奥运会数据

以上就是基于 2020年东京奥运会 数据进行的一系列数据分析可视化流程,基本涉及到利用 Pandas 进行数据分析的主要操作,是一份不可多得的简单易懂、利于探索的数据集。

页面更新:2024-04-19

标签:东京   奥运会   中国队   数据   手把手   奖牌   中国   透视   数量   事情   名称   类型   自然   代码   时间   国家   科技

1 2 3 4 5

上滑加载更多 ↓
Top