数据职业生涯职业规划大剖析

【果汁出品】不要快进、不要划走!都是干货!

小白转行大数据开发如何准确评估一个大数据培训项目能够满足自己的需求?能够符合企业真实工作流?

点击上方关注“果汁说数据”



【果汁出品】不要快进、不要划走!都是干货!

小白转行大数据开发如何准确评估一个大数据培训项目能够满足自己的需求?能够符合企业真实工作流?

+

目录:

1、背景

2、个人定位

2.1、大数据生态岗位深度解读

2.1.1、背景

2.1.2、大数据概念

2.1.3、大数据发展历程

1、大数据运维工程师

2、大数据平台开发工程师

3、 数据仓库工程师

4、数据测试工程师

5、数据分析师

6、算法工程师

7、数据产品经理

8、数据可视化


3、 市场状况

3.1、低代码又火了?数据产品早就开始低代码了?你个**还死磕技术呢?

4、 体系化+灵魂

4.1、课程体系化

4.2、师傅体系化

4.3、学习方法体系化

4.4、实操体系化

4.5、简历+面试体系化

4.6、试用期度过思路体系化

4.7、成长路线体系化

5、 面试场景题


1、背景


2、个人定位


2.1、大数据生态岗位深度解读


2.1.1、背景

最近粉丝们关于大数据的问题非常多,看到很多问题都是问“我想从事大数据,应该怎么准备?”,“如何入门大数据”等类似的问题?以前在面试的时候包括校招和社招,也经常碰到说今后的职业规划想做大数据,面对这样的回答,我表示很无语。

我对大数据定位成一个生态体系,像后端开发,人事岗、营销岗一样,其实背后是有好几个细分岗位划分的,在求职的时候需要有一个明确的目标定位的,目标定位越明确,准备越充分,成功率也越高。

2.1.2、大数据概念

百度百科 : 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。



Volume:海量的数据规模,数据体量达到PB甚至EB级别,这里的数据量主要来源于网络日志,多媒体数据等。

Variety:异构的数据类型,不仅仅包含结构化的数据、还包括半结构化和非结构化数据,比如日志文件、图像、音视频等。

Velocity:快速的数据流转,数据的产生和处理速度非常快。

Value:价值密度低,有价值的数据占比很小,需要用到人工智能等方法去挖掘新知识。

2.1.3、大数据发展历程

通过一张图来简单看一下发展历程,可以看出来大数据的鼻祖是数据仓库,所以现在做大数据比较资深都是从数据仓库、数仓架构师、数仓模型师转型过来的,随着计算机技术的发展,计算成本、存储成本大幅降低,逐渐产出了数据湖、数据中台这样的解决方案和概念。



2.1.4、大数据岗位生态体系

这也是本篇分享的重点,也是能够解开很多想入门大数据行当初学者的关键所在。

大数据岗位生态体系严格来说可以细分成下面9个岗位,当然这9个岗位并不是在每个公司都会划分的这么细,越是重视数据、越是财大气粗的公司划分的越细,很多公司的数据人员会身兼数职,比如大数据运维和大数据平台开发,数据仓库与数据测试等,都是同一个人兼着。

这9个岗位有什么

关系呢?哪个更高大上呢?其实他们也是有生态链(鄙视链)的。



大数据要在业务端发挥价值,一定要有数据产品经理(数据分析师某种程度上也兼职这个角色)、数据可视化工程师将数据呈现出来给到老板、业务方、用户。

但是数据产品不像其他业务型产品在一定用户需求基础上衍生出来,产品经理在能力则决定着产品的受欢迎程度,但是数据产品经理如果只在用户的需求基础衍生是远远不够的,因为普通用户根本不知道背后还有数据这回事,里面的价值是需要有数学功底和业务功底的才能探索出来的,仅仅靠数据产品经理就有点力不从心了,所以这个时候数据分析师、算法工程师、数据挖掘工程师就登场了,他们在研究挖掘海量数据之后(这里数据低价值密度的特性大幅提高了门槛),会提出概率更高的价值点交给产品经理进行调研、设计、上线。估计这个时候会有很多人不同意我的观点,实际工作流程大部分不是这样的,实际情况确实也是这样,这是因为目前的数据产品经理大都是从有数据经验的人转过来的,所以本身已经具备了这样的能力。这也是为什么数据产品经理比业务线产品经理更难的原因之一。

再往前看,数据量这么大,类型又这么多样,数据分析师、算法工程师、数据挖掘工程师每个人都直接从原始数据进行计算、分析显然是及其低效的,另外如果数据质量太差的话,分析或者挖掘出来的价值点可能是负面的,这个时候数据仓库工程师、数据测试隆重登场(大部分公司这两个角色是二合一的,包括头部互联网公司分开的都不多),前面的脏活、累活我们全包了,你们只管挖掘价值就好了,价值出来了,我们也是功劳的,所以数仓工程师更侧重的是底层数据清洗和建模。

再往前看,前面说了现在数据最大特点BIG,在哪里存储和计算呢,并且计算时效性比以前还高,各种实时大盘数据需求,最上游的运维和大数据开发工程师终于出场了,带宽、内存、时效性都不是事,我们来搞定。这里就要点名一下大数据开发工程师(简称大数据工程师)了,是被网上的转行者点名最多,也是被崇拜最多的,虽然很多人都不熟悉你,真是令其他几位兄弟姐妹羡慕。

下面就每个岗位都逐一解释一下,主要是通过工作内容来认识他们

从上帝视角来看他们其实就是数据中台这个大家庭中分工不同的工作者



业务价值(业务创新,形成核心壁垒)

1、以用户为中心,用洞察驱动企业稳健行动

2、以数据为基础,直系大规模商业模式创新

3、盘活全量数据,构筑坚实壁垒已持续领先

技术价值(成本低、能力多、应用广)

1、应对多数据处理的需求

2、丰富标签数据,减低管理成本

3、数据价值能体现业务系统效果而不仅是准确度

4、支持跨主题域访问数据

5、数据可以快速复用、不仅是复制

总结:数据中台是把业务生产资料转变为数据生产力,同时数据生产力反哺业务,不断迭代循环的闭环过程——数据驱动决策、运营


1、大数据运维工程师 (运开)

负责沟通协调数据开发团队,实时监控调度脚本的执行效率,确保平台资源的高效合理使用

负责Hadoop生态组件的部署升级、扩容缩容、性能和管理优化、问题排查等,包括但不限于CDH、HDFS、YARN、Hive、HBase、Spark和Flink等


2、大数据平台开发工程师

参与大数据平台工具链(元数据、开发平台、调度系统、资源控制等)的设计、开发、维护与优化

参与报表系统、数据分析系统、数据产品等功能设计开发

业内最有名的是阿里的ODPS



3、数据仓库工程师



数据仓库之离线/实时ETL开发及优化

数据仓库之模型设计

数据可视化开发

推动大数据应用技术与平台

典型产出如下图



4、数据测试工程师

负责数仓计算逻辑正确性测试

负责数据产品数据的准确性

保证数据埋点的可靠性与准确性

负责数据自动化测试策略和系统建设

这个岗位现在大数据领域里面是最被忽视的,数据质量也是目前大家最头疼的问题之一

5、数据分析师

建设管理报表体系,并进行报表的开发维护与检测

搭建业务KPI指标体系,并进行监测与分析,为公司产品运营优化提供建议;

撰写数据分析报告,为业务问题原因排查提供数据支持及解决方案;

给业务部门提供运营、产品、活动数据,根据数据问题,提出相应的解决建议

主要产出



6、算法工程师

语音、图像、自然语言处理、深度学习等机器学习算法开发及优化;

推荐、搜索、广告系统的算法开发及优化

挖掘并推进算法在业务中应用

机器学习平台开发及优化

抖音推荐

7、数据产品经理

负责BI产品、数据可视化规划、设计、迭代工作 ,通过数据为业务赋能

负责协助公司各业务⽅向⼤数据应⽤产品调研、规划、执⾏

负责梳理业务需求,甄别业务场景和价值,制定研发优先级,跟踪研发流程,确保价值交付

负责数据产品的开发项目管理工作,确保项目按照需求如期完成



8、数据可视化

负责大数据项目/产品前端展示模式规划构思和创意设计

负责常规图表组件的封装、地图组件技术的迭代与维护、页面元素动效的维护等;

负责报表平台输出可视化显示及迭代

数据可视化可以分为2种,一种是通过BI工具(Tableau、SuperSet等)或者Excel/PPT实现。

还有一种是前端开发工程师实现。

一个数据产品生产链路

这里给大家说一下一款数据产品是如何生产上线的,比如下面这个实时驾驶舱看板,包含了交易明细,各种不同程度的汇总数据,有离线数据,有实时数据。



一般生产流程可以通过下图来说明,如果需求当中包括一些预测之类的数据,这个时候算法工程师也会介入进来。

上面重点从岗位的生态系统链、岗位的主要工作内容,以及典型的数据产品生产流程,详细介绍了大数据岗位家族中的9个岗位,其目的就是希望在校大学生或者想转入大数据行当的同学,对大数据有一个整体和全貌的认知。

当有了这个认知之后,希望再问问题的时候或者说跟面试官说自己的规划的时候,不是直接说想做大数据,或者如何准备大数据,而是希望直接问具体的某个岗位如何准备或者选择,当有了这样比较具体的目标之后,自己准备起来也会更加高效和聚焦,如果能对大家有了这样的帮助,我的目的也就达到了。



3、市场状况


3.1、低代码又火了?数据产品早就开始低代码了?你个**还死磕技术呢?

低代码开发平台是通过少量代码就可以快速生成应用程序的开发平台。最近许多技术峰会都出现低代码,低代码是中台之后,又一个热门话题和名词了。

今年在阿里云栖大会、架构师峰会等很多技术峰会上都看到了低代码的专场,低代码可以说是中台之后,又一个热门话题和名词。2018年至2021年上半年,中国低代码无代码赛道热度持续升高。



一、低代码是怎么火起来的?

1. 什么是低代码

百度百科:低代码开发平台(LCDP)是通过少量代码就可以快速生成应用程序的开发平台。通过可视化进行应用程序开发的方法,使具有不同经验水平的开发人员可以通过图形化的用户界面,使用拖拽组件和模型驱动的逻辑来创建网页和移动应用程序。

2. 信息社会的发展阶段

纵观互联网以及信息社会的发展轨迹,可以划分为以下几个阶段:

互联网时代:从早期搜狐、网易开始的互联网新闻资讯改变纸质新闻,到淘宝、携程各种B2C、O2O、OTA商业模式的逐步成熟,再到互联网+一切,不到十年的时间,互联网快速发展。

移动时代:智能终端的由探索到普及,Java客户端转向塞班系统,Android系统,以及乔布斯对苹果的革新,移动化成了新的增长点。各企业纷纷推出手机端XX。

数据化时代:随着移动互联网的渗透,互联网到了下半场,人口红利散去,用户增长遇到了瓶颈,企业纷纷开始数字化转型,期望利用数据化、精细化的运营手段,挖掘新的业务增长点。

中台时代:2019年被很多人称之为中台元年,中台之所以被当作数字化转型的救命稻草,本质是因为中台的复用能力,数据快速服务化输出的能力,可以更快的实现数据赋能。


如果大厂可以搞中台,那资本、技术、人才短缺的中小企业,也想数字化转型,数据化运营,该何去何从呢?于是,出现了很多企业服务公司,专门为其他公司提供数字型所需的产品和服务,也就是现在比较火的SAAS产品。例如,阿里云、腾讯云等云厂商除了提供基础的云计算资源外,还输出云上的数据开发、数据分析产品。

而神策、GrowingIO则是聚焦为企业用户行为分析产品及解决方案。采购现成的产品通用性强,但业务适配的度不高,定制化的支撑响应周期长或成本高。那么除了买别人的产品,还有没有其他方案呢?答案就是低代码。

二、低代码的基本原理

问卷类产品应该是最早应用低代码思想的产品之一了吧。问卷的题目类型相对固定,单选、多选、文本输入,加上题目之间的跳转逻辑设置,无任务技术基础的人都可以快速创建一个问卷进行投放。

低代码的基本原理是:将业务流程的实现代码封装成一个组件,像乐高的积木块,或者PPT的各种图形元素,使用者只需要按照自己的需求或者想象,在画布上进行设计即可,各个模块拼接完成发布后,即可完成一个产品的开发。可以做到低代码的前提是,业务流程涉及的模块可以进行抽象,形成通用的组件。

三、低代码解决了什么问题

试想,一个新公司成立,需要OA系统、人事系统、财务系统、数据系统等各种各样的系统,纯自研不仅需要大量的资源投入,时间周期可能也很长。直接外采,人家又不是为你的业务量身定制的,例如人事单据的审批流程,采购合同管理等业务属性强的功能,无法支撑怎么办,要么忍,要么滚?一句话描述低代码,其实就是用最短的时间上线一款更符合业务需求数字化产品。


从传统的软件开发流程和低代码平台的软件开发流程对比可以看出,低代码平台主要解决了开发效率、人力成本、灵活扩展性等问题。

缩短开发周期:

图形化界面拖拉拽的方式搭建业务流程,后台进行代码生成,减少前端和后端代码工作,缩短开发时间;

业务人员可以跳过开发,直接从需求到产品;

集成了云计算等基础资源的低代码平台,还可以节省环境搭建工作。

降低成本:

低代码平台一旦建设完成,新增应用对开发依赖的低,初级开发人员和业务人员也可以利平台快速开发应用软件,降低软件开发的人力成本

组件、功能的复用,避免重复造轮子;

开发流程简化周期缩短,应用软件开发的其他各类支出同时减少

灵活扩展性:

应用开发达到了所见即所得的效果,便于产品快速试错

业务流程变化,只需更新配置发布即可,无需开发介入发布版本

体验一致性:

传统前端开发,一般是多端多团队开发,UI自定义程度较高,容易导致UI界面不一致,造成用户体验感下降。

低代码平台内置统一的交互和设计风格,生成应用软件UI高度统一

相对稳定性:

软件开发中,最常见的问题来源于开发人员的代码Bug,低代码平台封装流程引擎、统一接口、抽象通过组件,减少人的参与,系统更稳定。

平台层面可以进行统一的安全管理措施。例如权限管理,防黑客攻击等,从整体保障软件安全,使用者无需过多关注。


四、数据产品演进过程的低代码思想

数据产品是为了降低数据的处理、应用流程而生,其实本身就自带低代码的基因。例如,数据开发平台,将ETL流程配置化,通过页面的参数配置,实现任务的智能以来和自动化调度,取代过去利用cron表达式进行任务的周期执行操作。

数据可视化产品从前后端的定制化开发,到自助分析、可视化门户的自助化配置。用户画像标签生产和营销应用,从开发casebyCase的处理,到基于CDP&DMP的封装,实现业务自助营销。

数智化应用中的推荐接口,也可以利用机器学习平台实现模型特征的复用、推理服务的系统化配置。只不过,很多数据产品诞生之初是聚焦于企业内部用户,缺少以低代码概念的包装对外输出。在商业化数据产品领域中,BI产品应该算是低代码在数据领域的最早实践吧。


五、总结

每一个新的技术概念流行的时候,可能很多企业都已经深耕实践多年。低代码的风虽然这两年才再度兴起,但是数据产品一直在做的事情就是低代码,这也是为什么数据中台在2019年会爆火。

不管低代码这个行业如何发展,不断地抽象业务流程,提升组件化的复用能力也是每个数据人的追求。

降本增效!!!


4、体系化+灵魂


4.1、课程体系化

业务理解能力

需求拆解能力

模型设计能力

架构设计能力

全链路优化能力

数据治理能力

时间管理能力

复盘能力

结构化思维

4.2、师傅体系化

4.3、学习方法体系化

4.4、实操体系化

根据自己在实际工作中的处理步骤,给大家整理了一下数仓在接手一个新业务时应该如何处理。这是一个长远考虑的步骤,要看自己所在公司给多少时间来做。也有一开始就让你接需求且要的比较急的,你就不太可能从第一步循规蹈矩的做到最后一步了。大家可以根据具体场景灵活变通。

1、业务调研

1.1、主要是了解你负责这块业务的总体情况是怎样的。

1.2、该业务主要解决公司的什么问题。

1.3、该业务从流程最开始到结束整个是如何流转的.有条件去轮岗是最好的。

1.4、这个业务涉及到哪些系统,系统之间是如何交互的。

2、数据调研

2.1、有哪些数据源,分布在什么地方?业务库?接口?

2.2、整理数据源中的表?我们需要将表与实际业务对应起来?

这块我一般会带着表去问研发几个问题:这张表的作用是什么?发生怎样的业务场景就会往该表中写一条数据?哪些重要字段会随着业务的推进发生变更?如何确定表中唯一一条数据?

3、需求调研

3.1、主要是指标的分析和拆解指标.其实就是一堆指标的定义和口径的确定。

3.2、需求的产出形式.比如推到指定的报表库,还是以接口形式发布。

4、ADS层的表设计

4.1、主要设计ads层表有哪些字段。

5、数仓建模

5.1、按照建模方法论,设计其事实表和维度表。

6、数据ETL并落物理模型

6.1、数据的ETL过程.清洗数据(数据类型变换,时间格式处理,空值处理,单位处理等等),按照设计的模型表字段进行ETL加工。

7、数据测试

8、上线调度

9、数据质量校验

4.5、简历+面试体系化

4.6、试用期度过思路体系化

4.7、成长路线体系化


5、面试场景题


5.1、到了新公司或者目前公司数仓准备新接入一个新的业务系统的数据,一般需要做那些准备?

1、了解业务,找这条业务线(部门)的业务人员或者业务系统开发多沟通,多看一些业务相关文档

2、找运营、产品聚焦一下这条业务线的核心指标,对核心指标做一个拆解,比如,拆解互联网金融行业-业务收入规模:

第一层功力之指标拆解思路

业务收入规模 = 借贷业务收入规模 + 其他模块收入规模

第二层功力之运营目标拆解思路

借贷业务收入规模 = 新用户日活 * 授信通过率 * 首借申请率 * 首借申请金额 + 老用户日活 * 复借申请率 * 复借申请金额

其他模块收入规模 = 分期商城 + 生活服务 + 增值会员 + .....

第三层功力之目标群体拆解思路

新用户 = 新引入 + 新注册 + 新授信 + 首借款

老用户 = 复借款 + 沉默用户 + 流失用户

存量用户 = 商城用户 + 福利用户 + 会员用户 + .......

第四层功力之业务场景拆解思路

新用户:

调整渠道分配(应用市场、信息流等)提升授信申请率 /首借申请率

设计多个节点(注册直跳、额度诱导、活动诱导)引导用户进入授信流程

授信流程断点运营策略(退出时拦截、断点后触达)

首借激励政策(基于风险分层制定减息券)

首借断点电销触达

老用户:

日常任务机制(提额任务、积分任务)

活动促活(参与得免息、福利)

周期性复借权益下发

业务服务消息通知(如借款状态变更)

周边业务路径引导(福利、电商)

沉默、流失用户召回

存量用户:

会员权益激活引导(激活体验期、首月低价)

福利业务激活引导(新人抵价券)

分期商城商品运营(首页、聚合页货架选品)

价值分层运营(累积价值*风险水平*可用额度交叉分层)

偏好分层运营(偏好内容触达)

第五层功力之全链路数据运营思路(数据产品设计思路)

新用户:

渠道质量综合评估(成本、风险、收益)

授信引导路径AB Testing

首借分层激励策略

授信、首借断点自动化触达与分析

老用户:

日常任务提醒自动化

周期性复借权益自动化与诊断优化

活动设计ABTesting

沉默、流失原因诊断与触达策略设计

存量用户:

商城、福利、会员板块引导入口归因

用户分层策略设计落地(价值分层、偏好分层)

会员权益-界面价值主张AB Testing

会员权益-激活策略AB Testing

3、构建总线矩阵,宏观,梳理业务过程、维度、核心指标

4、根据业务过程抽象主题、事实表、粒度

5、维度建模方法,自下而上的

构建dwd明细层(重点)、dws轻度汇总层、ads应用层、dim维度层。

设计星型、雪花模型、星座模型等

6、入仓文档设计好、开始实施

7、边干边调整、小步迭代

5.2、19年统招普本毕业的,专业是电子信息的,但是学的一塌糊涂转行的大数据。由于是转行,当初面试不是很理想,迫于现实情况就进了外包公司,到现在对这个行业有了一点了解才知道我做的事情是比较杂,然后接触不到核心业务,技术提升也比较慢。期间用过spark、hbase、hive等,但是都停留在完成需求的阶段,会用而已。就是那种别人叫干嘛就干嘛的,打杂的。不知道是不是因为外包,我们建模一般也是有公司的建模专家建模,我只是写sql的.我觉得不能再这样混下去了,现在公司还是用的阿里云的dataworks一站式傻瓜操作的,也不知道怎么写上简历。我想趁今年四月份公司合同到期就换家自研,应该要做哪些方面的准备呢?目前感觉算法是来不及学习了,现在每天背调优和组件原理,你推荐的那本《大数据之路》我看了几十页,感觉好像对我面试也没有太大的帮助,更多的是加深了我对整个大数据系统的认识,等下份工作稳定了会读完。我想请教果哥,对于我这种经历,你有什么建议吗?如果是你,会怎么利用剩下的两个月时间准备四月的跳槽呢?

1、定位

2、数据仓库工程师重点是4个思维:业务思维,产品思维,技术思维,复盘思维。

业务思维:学习业务知识,积累业务经验,体现业务价值

产品思维:

工程师思维关注技术至上,技术水平代表实力,向于在产品中使用先进、流行的技术,因为掌握先进主流的技术可以提高他的身价。
产品思维关注的是,这技术能给用户带来什么价值?有什么商业价值?
所以我需要跳出这个怪圈,学会用产品的思维去思考问题,这样也能够开拓自己的眼界,无论是技术还是其他的路,都可以走的更远。

技术思维:技术广度/深度,基于技术的解决方案

复盘思维:把业务理解能力、产品思维、技术能力结合数据沉淀成可复用的综合能力。

这上面4个方向,前3个是硬实力,后1个是软实力。正常的开发多多少少都会涉及上面的内容,抓住一个作为自己的亮点,业务和产品以及复盘可能你并没有太大的真实感受,前三个不是一时半会能说清楚的,相当复杂,我主要说技术。

技术广度,作为数据仓库工程师

数据流转全链路 : 在每个链路应用哪些组建,比如数据入仓用datax或者sqoop,数仓构建需要的模型、数据质量、元数据管理;

技术深度,必须对某个技术栈有比较深入的了解,比如离线的hive,实时的flink;解决方案,基于广度和深度,对于一些企业的需求文档设计对应的解决方案的能力。

发现问题->解决问题->优化问题,就是可以说出去的亮点!

阿里dataworks本身就是为了让数据开发能快速输出结果

主动思考为什么?

5.3、自学完电商数仓这个项目能够找到一份1.5-2w的工作?

展开阅读全文

页面更新:2024-03-14

标签:数据   职业生涯   职业规划   工程师   需求   价值   代码   业务   用户   产品   平台   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top