2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

转载自:大数据架构师

明确目的

带着问题出发,明确我们的目的是探索不同岗位、城市、公司数据人薪资是怎样的,所以是一个探索性分析。

数据处理

1、查看并理解字段

拿到数据,大概看一下,总共有184条记录,量不大,那我们就直接用Excel来处理即可。样本量虽然有点少,但贵在真实、有效。

有8个字段:

2、缺失值处理

缺失值只在留言一列中存在,但这是正常现象,没必要做任何操作

3、重复值处理

对于重复值,这里我们认为所有字段都重复的才为重复值,即可删除。通过【删除重复值】的功能来实现,这份数据里没有重复值。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

4、异常值处理

关于异常值的处理,一个是对数值型数据的统计学意义上的异常来看,常用的方法是直接画出箱型图来观察。

另一个则是根据业务经验来判断,这里我们可以对城市字段进行分组,方便后续的分析,同时在分组过程中,也发现了一些异常值,这是基于常识经验。

把城市分为一线、新一线、二线、三线、四线、五线,有50个值是没有归属的,情况也不一样。

有的是地点直接显示为国别,如中国、美国,有的是地点显示为省份,如广东、浙江。把省份用其省会城市代替,做一些处理。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

最后得到规整的城市对应分组城市类型的数据。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

由于数据源是从调查软件中导出,所以整个数据比较规范,在缺失值、重复值、异常值的处理上都比较方便,基本无需做多余的操作,直接拿来用都可以。

数据分析

初级段位:数据罗列

1、单一特征分布

查看这份调查问卷每个字段的情况

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

根据对单一特征的分析可以知道:

2、离散型数据分布

查看了单个字段的大致分布后,别忘了我们的目的:薪资!所以要看每个字段和薪资的情况

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

可以看出:

中级段位:多特征联合

4、交叉分析

薪资不单单和某一因素有关,不同的城市、岗位、级别,薪资水平肯定会不一样,因此要进行多个维度的交叉分析。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

查看各岗位的城市分布及薪资情况

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

查看级别的城市分布同薪资情况

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

总结一下:

  1. 4个最多:数据仓库岗位人群最多,一线城市工作的人最多,默默无闻的血汗工厂工作的人最多,月入2~3w的人最多(与样本群体相关)。
  2. 薪资水平:以这份调查样本来说,数据人平均薪资在2.5w左右。
  3. 岗位选择:一线城市较其他城市提供的岗位有更多的选择性,除了数据分析岗薪资是1~2w,其他数据岗位薪资均在2~3w较多。
  4. 职业发展:在职业阶段初期,底层码农和主管/中工薪资结构差不多,再往上薪资水平就可提升一大截。
  5. 城市选择:大厂主要集中在一线城市,各个岗位分布较为平均且整体薪资较高。

高级段位:一些思考

让我们抛开这份样本来思考,从整个行业来看,数据人的薪资、岗位、职业、城市又有着怎样的趋势?可以带着3个问题来思考。

Q1:数据类岗位薪资最高的是?

数据类岗位应属于信息传输、软件和信息技术服务这类职业中,可以看到,除了管理层和金融服务外,它的工资排名第三,有90%的人能拿到17.28w的年薪,整个行业向好。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

细分到数据类岗位,可以参考的是,数据分析岗年中位数薪资为14.6w,数据仓库18.1w,大数据开发21.4w,产品经理19.3w,算法工程师23.8w,要努力精进自己的技术。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

Q2:是否职位越高,薪资越高?

从人社局公布的分岗位等级从业人员薪资分位值上可以看出,不管是技术类还是管理类,职位越高,薪资也会随着增长,但我们也发现,就算是高层管理岗有10%的人拿着5w年限左右的薪资,也有38万年薪就超过了90%的人,所以打铁还需自身硬,数据人,加油!

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

Q3:哪些城市的薪资最高?

通过统计各大城市的平均薪资和薪资中位数可以看到,北京、上海、南京、深圳、广州、杭州等一线、新一线城市平均薪资过万,当然平均值过于被极值影响了,从薪资中位数上看,只有北京、上海薪资中位数超过了6000,要高薪,还是要到大城市去。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

数据展示

简单地用Excel做了一个可视化大屏,做了2个动态交互效果,一个是通过列表框控件的选择显示的圆环图,可以看到其分布占比。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

另一个交互效果是数据透视表里切片器,通过将数据透视表联动,选择不同的岗位,可得到相应的图形。

2021年数据分析师不值钱了?爬取数据分析后发现原来差距这么大

展开阅读全文

页面更新:2024-05-04

标签:大佬   中位数   数据   血汗   默默无闻   字段   薪资   不值   上海   北京   样本   底层   数据仓库   差距   岗位   异常   发现   城市   旅游

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top