文科生自学Python-初识pandas的Transform和Map方法

--人生不是赛场，梦想不容退场，学习编程成就更好的自己--

Python语言简洁生动，特别适合文科生学习入门IT世界，用几十行代码就能够做一个完整的爬虫脚本，开发效率杠杠的！短时间内即可解决工作和学习中碰到的各种棘手问题。(本人外语专业毕业，机缘巧合爱上编程，自学道路曲曲折折，痛并快乐！)这里总结一下自学Python遇到的难点和重点，分享码过的代码和要点总结，希望能够给初学者一点启示和鼓励，同时愿意结交更多大神交流有助提升自己的水平。

上次介绍了pandas中重要的透视方法Pivot_table和Groupby，今天带大家通过上次的kaggle数据集案例介绍两个非常实用的数据处理方法分别是Transform和Map,前者可以得到分组聚合项(例如，每个年龄层各自对应的收入总和)，后者可以通过字典的方式来替换某个字段的所有字符(例如，可以把某字段英文分类名词替换为中文方便中文读者阅读)，接下来看看具体操作吧：

切换路径读取数据并做好预处理：

清洗好数据其实就完成了一大半的数据工作，大家一定要重视前期工作：

结果如下：

通过年龄层维度分组来做几个字段透视如下：

通过Groupby方法透视得到不同年龄层人群对应的孩子总数，收入总数，酒类支出平均值和肉类支出最大值：

如果想把上面按年龄分组得到的聚合数值匹配给数据源，如何实现呢？有请Transform出场吧：

通过Transform方法把分组聚合数值匹配给数据源：

操作结果显示：不同年龄层对应的收入总和匹配给每行数据，这样就能够得到对应的占比数据了，是不是非常方便呢！！

刚刚的方法只是划分了一个维度-年龄层，如果再多一点维度呢？

通过年龄层和注册年份两个维度分组来做几个字段透视如下：

分级更复杂一些，也同样可以用Transform来解决。

通过Transform方法把分组聚合数值匹配给数据源：

通过“收入汇总-年龄层-注册年份-占比”来展示，一样得到了分组聚合结果和对应的占比！！！

通过教育程度维度分组来做几个字段透视如下：

显示有几处还是英语单词，如何替换成对应中文呢？

首先通过rename方法重命名字段名如下：

通过map方法替换“教育程度”字段内所有英文名，再透视如下：

经过map方法操作后学历背景分类都是中文了(学历背景翻译如有不妥的地方还请谅解)，针对数量限定的标签分类替换均可轻松解决！

代码汇总如下：

import pandas as pd
import numpy as np
import datetime
import os
def Set_Work_Path(x):
    try:
        os.chdir(x)
        route = os.getcwd()
        return route
    except Exception:
        print("No Result")
work_path = r"F:DATA"
Set_Work_Path(work_path)
#Load and Check data
data = pd.read_excel("marketing_campaign.xlsx",sheet_name="marketing_campaign",header=0,index_col=None)
#Define a function to sort people with age
def Get_Rating_Age(x):
    current_year = datetime.datetime.today().year
    if (current_year - x) >= 60:
        return "老年组"
    elif(current_year - x)>= 40:
        return "中年组"
    elif(current_year - x)>= 18:
        return "青年组"
    else:
        return "少年组"
#Get the current year with datetime 
data["年龄层"] = data["Year_Birth"].apply(Get_Rating_Age)
data["孩子数"] = data["Kidhome"] + data["Teenhome"]
data["注册日期"]= pd.to_datetime(data["Dt_Customer"])
data["注册年份"]= data["注册日期"].dt.year.astype(str)
data["注册人数"] = 1
display(data.head())

#get pivot with groupby
data_groupby = data.groupby(["年龄层"]).agg({"孩子数":np.sum,"Income":np.sum,"MntWines":np.mean,"MntMeatProducts":np.max})
data_groupby["MntMeatProducts"] = data_groupby["MntMeatProducts"].astype(int)
data_groupby["MntWines"] = data_groupby["MntWines"].astype(int)
data_groupby["Income"] = data_groupby["Income"].astype(int)
data_groupby["孩子数"] = data_groupby["孩子数"].round(1)
data_groupby.reset_index(inplace=True)
display(data_groupby)

#Get the new fields with transform
data["孩子总数-年龄层"] = data.groupby("年龄层")["孩子数"].transform("sum")
data["收入汇总-年龄层"] = data.groupby("年龄层")["Income"].transform("sum").astype(int)
data["酒类平均水平-年龄层"] = data.groupby("年龄层")["MntWines"].transform("mean").astype(int)
data["肉类最高水平-年龄层"] = data.groupby("年龄层")["MntMeatProducts"].transform("max").astype(int)
data["收入汇总-年龄层-占比"]=(data["Income"]/data["收入汇总-年龄层"]).apply(lambda x:format(x,"0.3%")) #change the format
display(data.head())

#get pivot with groupby for show transform
data_groupby = data.groupby(["年龄层","注册年份"]).agg({"孩子数":np.sum,"Income":np.sum,"MntWines":np.mean,"MntMeatProducts":np.max})
data_groupby["MntMeatProducts"] = data_groupby["MntMeatProducts"].astype(int)
data_groupby["MntWines"] = data_groupby["MntWines"].astype(int)
data_groupby["Income"] = data_groupby["Income"].astype(int)
data_groupby["孩子数"] = data_groupby["孩子数"].round(1)
data_groupby.reset_index(inplace=True)
display(data_groupby)

data["收入汇总-年龄层-注册年份"] = data.groupby(["年龄层","注册年份"])["Income"].transform("sum").astype(int)
data["收入汇总-年龄层-注册年份-占比"]=(data["Income"]/data["收入汇总-年龄层-注册年份"]).apply(lambda x:format(x,"0.3%")) #change the format
display(data.head())

#Get new field with transform
data_groupby = data.groupby(["Education"]).agg({"孩子数":np.sum,"Income":np.sum,"MntWines":np.mean,"MntMeatProducts":np.max})
data_groupby["MntMeatProducts"] = data_groupby["MntMeatProducts"].astype(int)
data_groupby["MntWines"] = data_groupby["MntWines"].astype(int)
data_groupby["Income"] = data_groupby["Income"].astype(int)
data_groupby["孩子数"] = data_groupby["孩子数"].round(1)
data_groupby.reset_index(inplace=True)
display(data_groupby)

#Change Columns Names
data.rename(columns={"Income":"收入","MntWines":"酒类支出","MntMeatProducts":"肉类支出"},inplace=True)
display(data.head())

#Use Map to replace the words in one field
data["学历背景"] = data["Education"].map({"PhD":"博士", "Basic":"专科","Graduation":"本科","2n Cycle":"双学位","Master":"硕士"})
data_groupby = data.groupby(["学历背景"]).agg({"孩子数":np.sum,"收入":np.sum,"酒类支出":np.mean,"肉类支出":np.max})
data_groupby["肉类支出"] = data_groupby["肉类支出"].astype(int)
data_groupby["酒类支出"] = data_groupby["酒类支出"].astype(int)
data_groupby["收入"] = data_groupby["收入"].astype(int)
data_groupby["孩子数"] = data_groupby["孩子数"].round(1)
data_groupby.reset_index(inplace=True)
display(data_groupby)

看到这里大家是不是已经明白了Transform和Map的具体操作方法了吧，赶紧动手测试一下！！！

END

我为人人，人人为我！！欢迎大家关注，点赞和转发！！！

~~人生不是赛场，梦想不容退场~~不断努力学习蜕变出一个更好的自己，不断分享学习路上的收获和感悟帮助他人成就自己！！！

展开阅读全文

页面更新：2024-03-18

标签：方法维度数据源字段酒类肉类中文年份支出透视学历年龄收入孩子数据科技

1 2 3 4 5

文科生自学Python-初识pandas的Transform和Map方法

文科生自学Python-初识Tkinter编写简单的窗体操作界面

文科生自学VBA-正则自定义函数小汇

文科生自学Python-日期数据处理总结

文科生自学数据分析和编程-学习路径简要回顾和总结

全新荣耀V40驾到，新荣耀已开启新征途

科大讯飞智能耳机iFLYBUDS体验，无线耳机也能如此智能

吉米小轻杆P7无绳吸尘器，一起轻松打好家居清洁的保卫战

正准备换电视？第三代电视智慧屏你需要提前了解一下

三接头+最高65W GaN，一个充电器解决多个充电问题

双11忙装机？先看看这些机电产品，有惊喜

再次入手人体工程学椅，这一次为何入手网易严选？

兼具百万级的操控乐趣和舒适性，高合HiPhi X底气从何而来

符合国人的拖地习惯，BEHOW无线电动拖把让你挺起腰板

华为智慧屏一周年赛跑历程从行业新人到电视产业引领者

一个会员解决12个日常会员问题，还领领一堆亮相券

文科生自学Python-日期数据处理总结

文科生自学数据分析和编程-学习路径简要回顾和总结

文科生自学VBA-批量转换指定Excel数据为PDF文件

文科生自学VBA-Insert插入方法实例学习

文科生自学Python-pandas交叉透视表降维变换

文科生自学Python-批量合并同路径所有CSV文件数据

文科生自学Python-批量截取数据并生成对应可视化图表

文科生自学Python-pandas数据去重和计算日期间隔

让内卷社会升温华为智慧屏“打个电视”用科技传递善

荣耀Magic3系列秉承“双轮驱动”创新理念，重新定义科技