2006年,作为英国数学家兼Tesco Clubcard架构师的Clive Humbly,创造了“数据是新石油”这句话:
Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.
iPhone革命、移动经济增长以及大数据技术进步创造了一场完美风暴。2012年,哈佛商业评论发表了一篇文章,将数据科学家放在了新的高度上。这篇名为《数据科学家:21世纪最性感的工作》文章中,将数据科学家这种“新兴人类”称为数据黑客、分析师、传播者和值得信赖的顾问的混合体。
如今,几乎每个企业都在强调数据驱动。而机器学习技术的不断进步,正在帮助着企业完成这个目标。在网络上,机器学习相关的资料非常多,但是都太过于技术性并充斥着大量的高等数学公式等等,让大多数软件工程师难以理解。因此编写了这个系列文章,使用更加易于理解的方式来简述数据科学。
数据科学是一个多学科领域。它是以下领域之间的交集:
本系列文章的重点在简化数据科学中机器学习方面,而在本文中将首先介绍数据科学中的基本原则、通用流程和问题分类等。
数据是战略资产
这个概念是一种组织思维。问题:“我们是否使用了正在收集和存储的所有数据资产?我们能够从中提取有意义的洞察吗?”,相信这些问题的答案是:“没有”。基于云科技的公司本质上都是数据驱动的,将数据视为战略资产是他们的灵魂。然而这种观念对于大多数组织来说都是无效的。
系统的知识提取过程
需要有一个有条不紊的过程来提取隐藏在数据中的洞察。这个过程应该有明确的阶段和明确的可交付成果。跨行业数据挖掘标准过程(CRISP-DM)就是这样一个过程。
沉浸在数据中
组织需要投资于对数据充满热情的人。将数据转化为洞察力不是炼金术,而且也没有炼金术士。他们需要的是了解数据价值、具有数据素养和创造力的布道者,更加需要能够连接数据、技术和业务的人。
拥抱不确定性
数据科学并不是一颗银弹,也不是一颗水晶球。像报告和KPI一样,它为决策提供赋能。数据科学是一个工具但是并不仅限于此,而且数据科学也不是一个绝对的科学,它是一个概率的范畴,管理者和决策者需要接受这个事实。他们需要在决策过程中体现出量化的不确定性。如果组织文化只有采用快速从失败中学习成长的方法,才能确立这种不确定性。只有组织选择建立探索尝试的文化,它才会兴旺发达。
BAB(Business-Analytics-Business)原则
这是最重要的原则。许多数据科学文献的重点是模型和算法,而这些大多都没有实际的商业实践背景。业务-分析-业务(BAB)是强调模型和算法在业务部分应用的原则。把它们放在商业环境中是至关重要的,定义业务问题、使用分析来解决该业务问题、并将输出集成到业务流程中。
从上述原则#2中可以看到,数据科学的流程对于实现数据科学至关重要,一个典型的数据科学项目可分为如下几个阶段:
01:定义业务问题
阿尔伯特·爱因斯坦曾经引用过“凡事尽可能简洁,但不能太过简单”,而这句话也正是定义业务问题的核心。表述问题需要包括其发展历程和所在场景,需要建立明确的成功标准。业务团队总是繁忙无比,手头有很多经营工作要处理。但是这并不意味着他们没有需要面对的挑战。头脑风暴、研讨会和访谈可以帮助揭开任何问题的面纱,并提出可能的解决方案或者麝香。而对于如何定义业务问题?可参考下例:
一家电信公司由于其客户群减少而导致其收入同比下降。面对这种情况,业务问题可能被定义为:
该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群。
02:分解为机器学习任务
业务问题一旦定义好之后,就应该分解为机器学习任务。例如上述的示例,如果该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群,该如何分解该业务问题为机器学习任务呢?下面是一种分解的示例:
03:数据准备
一旦确定了业务问题并将其分解为机器学习问题,就需要开始深入研究数据了。对于数据的理解应该明确的针对当前问题,因为当前问题能够帮助制定合适的数据分析策略,并且要注意的是数据的来源、数据的质量以及数据的偏差等。
04:探索性数据分析
“当宇航员进入宇宙时,他们并不知道宇宙中有什么的。”同样的,数据科学家在开始对数据进行分析时,对于数据中隐含的特征等也都是未知的,他们需要穿过数据的表象去探求和发现新的数据涵义。探索性数据分析(Exploratory data analysis,EDA)是一项令人兴奋的任务,可以更好地理解数据,调查数据中的细微差别,发现隐藏模式,开发新功能并制定建模策略。
05:模型化
探索性数据分析之后,将进入建模阶段。这个阶段中,会根据特定的机器学习问题,选择不同的算法,而机器学习算法有很多,耳熟能详的有回归、决策树、随机森林等等。
06:部署与评估
最后,部署开发的模型,并且建立持续的监测机制,观察它们在现实世界中的表现并据此进行校准和优化。
一般情况下,机器学习有两类任务:
监督学习
监督学习是一类具有明确目标的机器学习任务。从概念上讲,建模者将对机器学习模型进行监督并实现特定目标。
监督学习可以进一步分为两类:
回归
回归是机器学习任务中的主力,被用来判断或预测一个数值变量。例如下面两个问题:
分类
顾名思义,分类模型就是进行分类,判断某事更适合于哪种类型。分类模型经常用于各种类型的应用,例如:
无监督学习
无监督学习是一类没有目标的机器学习任务。由于无监督学习没有任何明确的目标,它们所产生的结果可能有时难以解释。
有很多类型的无监督学习任务。几个关键的是:
聚类(Clustering):聚类是将类似的东西组合在一起的过程。客户细分就使用聚类方法。
关联(Association):关联是一种查找频繁匹配的产品的方法。零售市场分析使用关联法将产品捆绑在一起。
链接预测(Link Prediction):链接预测用于查找数据项之间的关联。Facebook、亚马逊和Netflix采用的推荐引擎就大量使用链接预测算法,来分别向我们推荐朋友、商品和电影。
数据简化(Data Reduction):数据简化用于把数据集的众多特征简化到几个特征。它需要一个具有许多属性的大型数据集,并找到用较少属性来表述的方法。
一旦将业务问题分解为机器学习任务,一个或多个算法就可以解决给定的机器学习任务。通常,模型是在多种算法上进行训练的,选择能提供最佳结果的算法或一组算法进行部署。
例如Azure提供超过30种预建算法用于训练机器学习模型。
数据科学是一个广泛且令人兴奋的领域,也是一门艺术和科学。这篇文章仅仅体现了冰山一角。如果“不知道”是什么,那么“如何”将是徒劳的。在随后的文章中,我们将探讨机器学习的方式方法。敬请期待!
翻译:TalkingData
作者:Pradeep Menon
来源:Mudium
原文链接:https://becominghuman.ai/data-science-simplified-principles-and-process-b06304d63308
页面更新:2024-05-21
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号