文科生自学Pythonpandas-profiling

--心有猛虎，细嗅蔷薇，学习编程成就更好的自己--

Python语言简洁生动，特别适合文科生学习入门IT世界，用几十行代码就能够做一个完整的爬虫脚本，开发效率杠杠的！短时间内即可解决工作和学习中碰到的棘手问题。(本人外语专业毕业，机缘巧合爱上编程，自学道路曲曲折折，痛并快乐！)在这里总结一下自学Python遇到的难点和重点，分享码过的代码和要点总结，希望能够给初学者一点启示和鼓励，同时愿意结交更多大神交流有助提升自己的水平。

每次拿到新的数据做处理和分析时往往需要先了解数据的基本面，比如：数据共有多少个样本，共有多少个字段且分别是什么类型，数据某维度样本最大值和均值是多少等一系列问题。那么有没有一个特别的包可以帮助我们迅速得到基本面信息和相关可视化报告呢？答案是肯定的！！！Python作为开源软件最强大的地方在于资源丰富且开放-简直就是机器猫的口袋，今天就来介绍一下pandas-profiling包吧。

首先，导入pandas-profiling包，如下(在Pycharm环境下查看是否导入成功)：

接下来以Seaborn库的内置数据集作为案例来演示一下如何使用pandas-profiling包吧：

以Tips数据集合为例，只需要两行代码就可以搞定！！！如下：

生成的报告以html格式文件保存，打开查看一下结果吧！！

整体情况一目了然！！

不同字段还单独有分类和展示，细致入微！！！

以Car_crashes数据集合为例，也只需两行代码就可以搞定！！！如下：

生成的报告以html格式文件保存，打开查看一下结果吧！！

整体情况一目了然！！

自动生成一些可视化图表方便了解某些字段关系情况，真香！！

代码汇总如下：

import pandas_profiling as pp
import seaborn as sns
import pandas as pd
import os, sys

def Set_Work_Path(x):
    try:
        os.chdir(x)
        route = os.getcwd()
        print(route)
        return route
    except Exception:
        print("No Result")
work_path = r"E:DATA20210930"
Set_Work_Path(work_path)

#data_sample = data.sample(frac=0.1)
data_tips = sns.load_dataset("tips") #引用SNS内置样本数据
print(data_tips.head())
print (data_tips.shape)
report = pp.ProfileReport(data_tips)
report.to_file("tips-report.html") #将生成的报告存储在指定路径里并以HTML格式保存

data_car_crashes = sns.load_dataset("car_crashes") #引用SNS内置样本数据
print(data_car_crashes.head())
print(data_car_crashes.shape)
report = pp.ProfileReport(data_car_crashes)
report.to_file("data_car_crashes.html") #将生成的报告存储在指定路径里并以HTML格式保存

讲到这里有人是不是已经心动了哇，有兴趣的小伙伴们赶紧动手试试吧！！！以后拿到数据可以先用pandas-profiling来做一下初级探索哦，这样心里就更有数了！！

END

我为人人，人人为我！！欢迎大家关注，点赞和转发！！！

~~人生不是赛场，梦想不容退场~~不断努力学习蜕变出一个更好的自己，不断分享学习路上的收获和感悟帮助他人成就自己！！！

展开阅读全文

页面更新：2024-04-16

标签：猛虎机器猫杠杠经心字段样本基本面格式文件路径成就情况代码格式报告数据科技

1 2 3 4 5

文科生自学Pythonpandas-profiling

文科生自学VBA-批量转换指定Excel数据为PDF文件

文科生自学VBA-批量拆分已合并单元格内容

文科生自学VBA-Insert插入方法实例学习

文科生自学Python-初识pdfplumber

男人和女人

曾是国军头号战犯，为何回国后官至副国级，6位开国元帅为其接风

文科生自学Python-pandas交叉透视表降维变换

文科生自学Python-批量合并同路径所有CSV文件数据

文科生自学Python-批量截取数据并生成对应可视化图表

文科生自学Python-pandas数据去重和计算日期间隔

文科生自学Python-parallel平行关系占比图

文科生自学VBA-批量修改单元格内指定位置字符颜色

文科生自学Python-初识Selenium爬虫(上)

文科生自学Python-初识Selenium爬虫(中)

扫地之后再拖地？别累了，吉米速干洗地机帮你搞定

文科生自学VBA-批量转换指定Excel数据为PDF文件

文科生自学Python-批量合并同路径所有CSV文件数据

文科生自学Python-批量截取数据并生成对应可视化图表

文科生自学Python-pandas数据去重和计算日期间隔

让内卷社会升温华为智慧屏“打个电视”用科技传递善

荣耀Magic3系列秉承“双轮驱动”创新理念，重新定义科技

抢先看2020款奥迪A6L《买车用车报告》36万买四驱值

抢先看2020款雷克萨斯ES200《买车用车报告》广东人的

抢先看2021款奥迪Q5 Sportback 科技以换壳为本

抢先看2020款奥迪A8《买车用车报告》有钱一定要买