机器学习从入门到进阶①丨原则与过程

2006年，作为英国数学家兼Tesco Clubcard架构师的Clive Humbly，创造了“数据是新石油”这句话：

Data is the new oil. It’s valuable, but if unrefined it cannot be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity; so, must data be broken down, analyzed for it to have value.

iPhone革命、移动经济增长以及大数据技术进步创造了一场完美风暴。2012年，哈佛商业评论发表了一篇文章，将数据科学家放在了新的高度上。这篇名为《数据科学家：21世纪最性感的工作》文章中，将数据科学家这种“新兴人类”称为数据黑客、分析师、传播者和值得信赖的顾问的混合体。

如今，几乎每个企业都在强调数据驱动。而机器学习技术的不断进步，正在帮助着企业完成这个目标。在网络上，机器学习相关的资料非常多，但是都太过于技术性并充斥着大量的高等数学公式等等，让大多数软件工程师难以理解。因此编写了这个系列文章，使用更加易于理解的方式来简述数据科学。

数据科学是一个多学科领域。它是以下领域之间的交集：

商业知识
统计学习或称机器学习
计算机编程

本系列文章的重点在简化数据科学中机器学习方面，而在本文中将首先介绍数据科学中的基本原则、通用流程和问题分类等。

关键原则

数据是战略资产

这个概念是一种组织思维。问题：“我们是否使用了正在收集和存储的所有数据资产？我们能够从中提取有意义的洞察吗？”，相信这些问题的答案是：“没有”。基于云科技的公司本质上都是数据驱动的，将数据视为战略资产是他们的灵魂。然而这种观念对于大多数组织来说都是无效的。

系统的知识提取过程

需要有一个有条不紊的过程来提取隐藏在数据中的洞察。这个过程应该有明确的阶段和明确的可交付成果。跨行业数据挖掘标准过程（CRISP-DM）就是这样一个过程。

沉浸在数据中

组织需要投资于对数据充满热情的人。将数据转化为洞察力不是炼金术，而且也没有炼金术士。他们需要的是了解数据价值、具有数据素养和创造力的布道者，更加需要能够连接数据、技术和业务的人。

拥抱不确定性

数据科学并不是一颗银弹，也不是一颗水晶球。像报告和KPI一样，它为决策提供赋能。数据科学是一个工具但是并不仅限于此，而且数据科学也不是一个绝对的科学，它是一个概率的范畴，管理者和决策者需要接受这个事实。他们需要在决策过程中体现出量化的不确定性。如果组织文化只有采用快速从失败中学习成长的方法，才能确立这种不确定性。只有组织选择建立探索尝试的文化，它才会兴旺发达。

BAB（Business-Analytics-Business）原则

这是最重要的原则。许多数据科学文献的重点是模型和算法，而这些大多都没有实际的商业实践背景。业务-分析-业务（BAB）是强调模型和算法在业务部分应用的原则。把它们放在商业环境中是至关重要的，定义业务问题、使用分析来解决该业务问题、并将输出集成到业务流程中。

流程

从上述原则#2中可以看到，数据科学的流程对于实现数据科学至关重要，一个典型的数据科学项目可分为如下几个阶段：

01：定义业务问题

阿尔伯特·爱因斯坦曾经引用过“凡事尽可能简洁，但不能太过简单”，而这句话也正是定义业务问题的核心。表述问题需要包括其发展历程和所在场景，需要建立明确的成功标准。业务团队总是繁忙无比，手头有很多经营工作要处理。但是这并不意味着他们没有需要面对的挑战。头脑风暴、研讨会和访谈可以帮助揭开任何问题的面纱，并提出可能的解决方案或者麝香。而对于如何定义业务问题？可参考下例：

一家电信公司由于其客户群减少而导致其收入同比下降。面对这种情况，业务问题可能被定义为:

该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群。

02：分解为机器学习任务

业务问题一旦定义好之后，就应该分解为机器学习任务。例如上述的示例，如果该公司需要通过瞄准新的细分市场和减少客户流失来扩大客户群，该如何分解该业务问题为机器学习任务呢？下面是一种分解的示例：

将顾客的流失减少多少百分点
为有针对性的营销确定新的客户群

03：数据准备

一旦确定了业务问题并将其分解为机器学习问题，就需要开始深入研究数据了。对于数据的理解应该明确的针对当前问题，因为当前问题能够帮助制定合适的数据分析策略，并且要注意的是数据的来源、数据的质量以及数据的偏差等。

04：探索性数据分析

“当宇航员进入宇宙时，他们并不知道宇宙中有什么的。”同样的，数据科学家在开始对数据进行分析时，对于数据中隐含的特征等也都是未知的，他们需要穿过数据的表象去探求和发现新的数据涵义。探索性数据分析（Exploratory data analysis，EDA）是一项令人兴奋的任务，可以更好地理解数据，调查数据中的细微差别，发现隐藏模式，开发新功能并制定建模策略。

05：模型化

探索性数据分析之后，将进入建模阶段。这个阶段中，会根据特定的机器学习问题，选择不同的算法，而机器学习算法有很多，耳熟能详的有回归、决策树、随机森林等等。

06：部署与评估

最后，部署开发的模型，并且建立持续的监测机制，观察它们在现实世界中的表现并据此进行校准和优化。

机器学习任务→模型→算法

一旦将业务问题分解为机器学习任务，一个或多个算法就可以解决给定的机器学习任务。通常，模型是在多种算法上进行训练的，选择能提供最佳结果的算法或一组算法进行部署。

例如Azure提供超过30种预建算法用于训练机器学习模型。

结语

数据科学是一个广泛且令人兴奋的领域，也是一门艺术和科学。这篇文章仅仅体现了冰山一角。如果“不知道”是什么，那么“如何”将是徒劳的。在随后的文章中，我们将探讨机器学习的方式方法。敬请期待！

翻译：TalkingData

作者：Pradeep Menon

来源：Mudium

原文链接：https://becominghuman.ai/data-science-simplified-principles-and-process-b06304d63308

展开阅读全文

页面更新：2024-05-21

标签：进阶机器原则过程分解算法科学家入门模型定义目标客户组织业务科学方法数据游戏

1 2 3 4 5

机器学习从入门到进阶①丨原则与过程

关键原则

流程

分类

机器学习任务→模型→算法

结语

一文了解前台、中台、后台的职责与关联

个保法草案公布，「告知-同意」应该怎么做？

TalkingData入选36氪新基建大数据领域TOP50

大屏影响力：数据可视化“跨界”助力银行全面数字化转型

北京市东城区人民法院大数据课题组到TalkingData调研

机器学习从入门到进阶②丨统计学习的关键概念

洞察实录丨打工人尾款人最后都是还款人

携手突围 TalkingData营销产品交流会 | 上海场

TalkingData获选36氪中国新经济之王最具影响力企业

TalkingData与巨量引擎在品牌广告监测领域合作升级

机器学习从入门到进阶⑤丨多元回归模型

机器学习从入门到进阶⑨丨回归模型的交互性与局限

回顾 | 携手突围 ·TalkingData营销产品交流会

机器学习从入门到进阶⑧丨回归模型中的定性变量

机器学习从入门到进阶④丨线性回归模型

TalkingData入选36氪新基建大数据领域TOP50

大屏影响力：数据可视化“跨界”助力银行全面数字化转型

北京市东城区人民法院大数据课题组到TalkingData调研

机器学习从入门到进阶②丨统计学习的关键概念

机器学习从入门到进阶⑤丨多元回归模型

机器学习从入门到进阶⑨丨回归模型的交互性与局限

机器学习从入门到进阶⑧丨回归模型中的定性变量

机器学习从入门到进阶④丨线性回归模型

赋能业务转型，AI需要这三大核心能力

机器学习从入门到进阶③丨假设检验

机器学习从入门到进阶①丨原则与过程

关键原则

流 程

分 类

机器学习任务→模型→算法

结 语

流程

分类

结语