每个数据科学家都应该知道的10种机器学习算法

分析模型是一种统计模型,以执行特定任务或预测特定事件的概率。用外行术语来说,模型只是业务问题的数学表示。可以将简单方程y = a + bx称为具有一组预定义数据输入和所需输出的模型。但是,随着业务问题的发展,模型的复杂性也在增加。建模是成功实施分析过程中最复杂的部分。

可伸缩且高效的建模至关重要,因此可以将这些技术应用于越来越多的大量数据集,以减少执行这些分析所需的时间。这样就产生了模型,这些模型实施关键算法来确定针对我们业务难题的解决方案。

有监督与无监督学习模型

监督学习模型是解释变量和因变量之间有明显区别的模型。训练模型以使用解释变量来解释因变量。换句话说,模型输出属性是事先已知的。例如:预测(例如线性回归)、分类(例如决策树,k最近邻)、时间序列预测(例如,基于回归)

在无监督学习中,模型输出未知或没有目标属性:解释变量和因变量之间没有区别。创建模型是为了找出数据的固有结构。例如:关联规则、聚类分析,在这里,我们计划简要讨论以下10种基本的机器学习算法/技术,这是任何数据科学家都应该掌握的,还有许多强大的技术,例如判别分析,因子分析等,但我们希望重点关注这10个最基本和最重要的技术。

机器学习算法

1.假设检验

2.线性回归

3. Logistic回归

4.聚类

5.方差分析

6.主成分分析

7.关联分析

8.神经网络

9.决策树

10.分类方法

1.假设检验

假设测试并非完全是一种算法,但是对于任何数据科学家来说,这都是必须知道的。

假设检验是使用统计检验来检验假设是否正确的过程。基于假设检验,我们选择接受或拒绝假设。当事件发生时,它可能是趋势,也可能是偶然发生的。为了检查事件是重要事件还是偶然事件,必须进行假设检验。

假设检验有很多检验,但是以下两个最受欢迎:

  1. t检验: t检验是一种流行的统计检验,用于推断单个均值或两个均值或方差的推断,以检查两组均值是否在统计学上彼此不同(n <30并且标准差未知)。
  2. 卡方检验:卡方检验(χ2)用于检查类别变量的2种分布是否与其他分布有显着差异。
每个数据科学家都应该知道的10种机器学习算法

2.线性回归

线性回归是一种统计建模技术,它通过将观察到的数据点拟合到线性方程上来对解释变量和因变量之间的关系进行建模。

如果变量之间存在关联或显著关联,则使用线性回归。可以通过散点图检查。如果变量之间没有关联,则将线性回归模型拟合到数据将不会提供有用的模型。

线性回归线的方程式如下:

Y = a + bX,

其中,X =解释变量,

Y =因变量。

b =线的斜率

a =截距(x = 0时y的值)。

每个数据科学家都应该知道的10种机器学习算法

3. Logistic回归

逻辑回归是一种在一组输入变量和一个输出变量之间寻找关系的技术(就像任何回归一样),但是在这种情况下,输出变量将是一个二进制结果(认为是0/1或是/否)。

例如:二进制变量在城市某个位置会发生交通拥堵吗?输出为明确的是或否。交通堵塞发生的概率可以取决于天气状况,星期几和月份,一天中的时间,车辆数量等属性。通过逻辑回归,我们可以找到最佳拟合模型来解释独立属性与交通堵塞发生率并预测堵塞发生的可能性。

每个数据科学家都应该知道的10种机器学习算法

4.聚类技术

聚类(或分段)是一种无监督的学习算法,其中,数据集被分组为唯一的,有区别的聚类。

可以说,我们的客户数据跨越1000行。使用聚类,我们可以根据变量将客户分为不同的聚类或细分。对于客户数据,变量可以是人口统计信息或购买行为。

聚类是一种无监督的学习算法,因为输出对于分析人员是未知的。我们不会根据任何过去的输入-输出信息来训练算法,而是让算法为我们定义输出。因此(就像任何其他建模练习一样),聚类算法没有正确的解决方案。最好的解决方案是基于业务可用性。有人也将聚类称为无监督分类。

聚类技术有2种基本类型:层次聚类、分区聚类

每个数据科学家都应该知道的10种机器学习算法

5.方差分析

单向方差分析(ANOVA)检验用于确定两组以上数据集的平均值是否存在显着差异。

例如。BOGO的活动(买一送一)在5组中进行,每组100个客户。每个群体的人口统计属性都不相同。我们想确定这5个人对广告系列的反应是否不同。这将有助于我们针对合适的受众群体优化合适的广告系列,提高响应率并降低广告系列的成本。

“方差分析”通过将组之间的方差与组内方差进行比较。该技术的核心在于评估所有组是否是一个较大种群的实际部分,还是具有不同特征的完全不同的种群。

每个数据科学家都应该知道的10种机器学习算法

6.主成分分析

维(变量)归约技术旨在将高维数据集缩减为低维数据集,而又不损失数据集传达的信息特征。这里的维可以被认为是数据集包含的变量数。

两种常用的变量约简技术是:

  1. 主成分分析(PCA)
  2. 因子分析

PCA的关键在于从主成分的角度测量数据。数据集的主要组成部分是方差最大的方向。PCA分析包括将每个变量的轴旋转到最高特征向量/特征值对,并定义主要成分,即最高方差轴,或换句话说,最能定义数据的方向。主成分是不相关且正交的。

人的主要成分分析。对具有2663个结构推断SNP的样本组合进行了分析。前4个主要成分解释了数据中总共78.5%的方差,并且相应的特征向量在该图中的成对散点图中显示。

每个数据科学家都应该知道的10种机器学习算法

7.关联分析

关联分析广泛用于市场研究中,以识别客户对构成产品的各种属性的偏好。属性可以是各种功能,例如大小,颜色,可用性,价格等。

使用关联(权衡)分析,品牌经理可以确定在特定价格点上客户的权衡哪些功能。因此,它在新产品设计或定价策略中被广泛使用。

每个数据科学家都应该知道的10种机器学习算法

8.神经网络

神经网络(也称为人工神经网络)是受人类神经系统启发的,复杂的信息如何被系统吸收和处理。就像人类一样,神经网络通过实例学习,并针对特定的应用进行配置。

神经网络用于查找复杂数据中的模式,从而提供预测和分类数据点。神经网络通常是分层组织的。层由许多相互连接的“节点”组成。模式通过“输入层”呈现给网络,该“输入层”与完成实际处理的一个或多个“隐藏层”进行通信。然后,隐藏的层链接到“输出层”,在该“输出层”中输出答案,如下图所示。

每个数据科学家都应该知道的10种机器学习算法

9.决策树

顾名思义,决策树是树形的视觉表示,可以通过列出所有选项及其出现的可能性来达成特定决策。决策树非常容易理解和解释。在树的每个节点上,可以解释选择该节点或选项的结果。

每个数据科学家都应该知道的10种机器学习算法

10.分类方法

分类方法基于许多弱学习者可以聚在一起给出强烈预测的哲学。当前,随机森林是所有可用分类技术中最准确的。随机森林是一种分类方法。在这种情况下,弱学习者是简单的决策树,而随机森林是强学习者。

随机森林优化了由相同数据集样本形成的许多决策树的输出。从而找到最准确的分类模型。

每个数据科学家都应该知道的10种机器学习算法

展开阅读全文

页面更新:2024-04-01

标签:算法   因变量   方差   数据   神经网络   建模   线性   变量   科学家   成分   属性   模型   机器   发生   客户   技术   决策树

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top