机器学习从入门到进阶⑩丨分类模型入门

韦氏词典对「分类(classification)」的定义是:

基于既定的标准,系统化地进行分组或分类。

世界上充满了各种分类器。分类器帮我们拦截垃圾邮件、识别潜在流失客户、预测降雨概率。在商业应用中,这种监督学习的方式是无处不在、理所应当的存在。

在这篇文章中,我们就来讨论一下分类模型的核心概念。

分类

回归模型预测的是数值型变量,即因变量。对回归模型来说,要得出的结果总是数值。而分类模型的目标则是定性,这些目标也被称为类别(category)。

在大量的分类问题中,目标被设计为二进制,即目标的值不是0就是1。这类分类型被称为二进制分类器,让我们用一个例子来说明。

机器学习从入门到进阶⑩丨分类模型入门

一家银行的贷款审批部门,希望用机器学习来识别潜在贷款违约者。在这种情况下,就需要构建用于分类的机器学习模型。基于对输入数据的学习,模型将把贷款申请者分为两类:

这个目标就是类似于“will_default_flag.”的属性标签,可以应用在每个贷款申请者上,其值为0或是1。如果模型预测值为1,就意味着这名贷款申请者可能会违约。如果模型预测值为0,就意味着这名贷款申请者应该不会违约。一些分类器也可以进行多类别的分类,被称为“多类分类器”。

线性和非线性分类器

如果我们想构建一个区分潜在贷款违约者的分类器,那么用来判断贷款申请者是否为潜在贷款违约者的特征,就是收入和信用评级。

机器学习从入门到进阶⑩丨分类模型入门

上面的图表就是描述了这个场景。简单来说,该特征空间是收入和信用评级的交集。图片上的绿色点是守约者,而粉色点是违约者。基于对输入特征数据(收入和信用评级)的学习,分类器创建了一条线,将特征空间分为两部分。分类模型根据以下规则进行分类:

借助线来分隔特征空间的分类器称为线性分类器。

在这个例子中,只有两个特征。如果有三个特征,分类器将增加一个平面,将之前的平面分为两部分。如果特征超过三个,分类器将创建一个超平面(hyperplane)。

这是一个过于简单化的场景。一条线或者一个平面可以把数据点分为两部分,如果数据点是按以下方式分布的呢:

机器学习从入门到进阶⑩丨分类模型入门

线性分类器在这里就无能为力了。分类器需要用曲线来区分违约者和守约者。这类分类器称为非线性分类器。

有很多种算法都可以用来构建分类模型。包括逻辑回归在内的一些算法是不错的线性分类器,其他算法例如神经网络则是不错的非线性分类器。

分类器的作用是:

用(线性或非线性的)函数来划分特征空间,使得一类数据点落在一部分特征空间中,另一类数据点落在另一部分特征空间中。

分类器的评估

上面介绍了分类器的作用,我们又该如何评估分类器的表现呢?这里就要提到混淆矩阵(confusion matrix)

通过一个例子来说明。我们构建了一个贷款违约者分类器,分类器通过对数据的训练,学习到了以下结果:

基于分类器的运行方式,延展出4个评估指标:

  1. 在被分类为违约者的人中,只有12个确实为违约者。这个指标被称为真阳性(True Positive,TP)
  2. 在被分类为违约者的人中,23个人实际上是守约者。这个指标被称为假阳性(False Positive,FP)
  3. 在被分类为守约者的人中,只有57个确实为守约者。这个指标被称为真阴性(True Negative,TN)
  4. 在被分类为守约者的人中,8个人实际上是违约者。这个指标被称为假阴性(False Negative,FN)

将这四个指标在矩阵中以表格形式列出,即为混淆矩阵

机器学习从入门到进阶⑩丨分类模型入门

我们基于这四个指标来构建分类器的评估指标。接下来就介绍这些评估指标。

正确率(Accuracy)

正确率衡量的是分类器对真阳性和真阴性都分类正确的比例。

数学定义为:正确率=(真阳性+真阴性)/总预测量

在这个例子中,该贷款违约分类器的准确率为:(12+57)/100=0.69=69%

灵敏度(Sensitivity)或召回率(Recall)

召回率或称查全率,衡量的是分类器对真阳性分类正确的比例。

数学定义为:召回率=真阳性/(真阳性+假阴性)

在这个例子中,该贷款违约分类器的召回率为:12/(12+8)=0.60=60%

特异度(Specificity)

特异度衡量的是分类器对真阴性分类正确的比例。

数学定义为:特异度=(真阴性)/(真阴性+假阳性)

在这个例子中,该贷款违约分类器的特异度为:57/(57+23)=0.7125=71.25%

精确率(Precision)

精确率或称查准率,衡量的是总体阳性样本中分类正确的比例。

数学定义为:精确率=(真阳性)/(真阳性+假阳性)

在这个例子中,该贷款违约分类器的精确率为:12/(12+23)=0.48=48%

衡量指标很多,到底应该依靠那个指标呢?要根据业务背景来回答这个问题。不管哪种情况,单一的衡量标准都不能完整评估分类器的表现是否够好。让我们来看一个例子:

机器学习从入门到进阶⑩丨分类模型入门

我们构建了一个分类器来找出虚假交易。这个分类器需要判断每一笔交易是真实的还是虚假的。通过分析历史数据,可以得出每100笔交易中有2笔为虚假交易的规律。我们构建的分类器的混淆矩阵如下:

如果这个模型是基于正确率、召回率、精确率构建的,这家公司肯定要完蛋了。尽管这个模型看上去表现良好,但事实上,这个模型糟透了。它根本没能完成它该完成的任务——找出虚假交易。对这个模型来说,最重要的指标是特异度,而它的特异度是0%。

鉴于不能依靠单一指标来评估分类器,就需要构建更复杂的衡量指标,也就是需要结合以上所有指标。关键性的指标是:

F1分数:

F1分数是精确率和召回率的调和平均值(harmonic mean)。常规平均数对所有值一视同仁,调和平均值则给予低值更多权重。结果是,分类器在召回率和精确率都高的时候才会得到高的F1分数。其公式是:

F1=2x(精确率x召回率)/(精确率+召回率)

ROC与AUC:

Receiver Operating Characteristics,即ROC,是一个可视化的衡量指标。它是一个两维的图表,其X轴为假阳性率(也就是1-特异度)、Y轴为真阳性率(也就是精确率)。

机器学习从入门到进阶⑩丨分类模型入门

在ROC的图表中,用一条线来代表随机分类器所预测的真阳性率(TPR)和假阳性率(FPR)。这是一条直线,也就是预测值为0或1的可能性是一样的。

如果分类器的表现如预想中的好,其TPR的比例就应该高于FPR,使这条线向左上方弯曲

Area Under Curve,即AUC,是指ROC弯曲出的面积。如果AUC为1,即100%,意味着这是一个完美的分类器。如果AUC为0.5,即50%,意味着分类器的预测性能跟扔硬币的效果差不多。

可以用来评估分类器性能的衡量指标很多。分类器的性能评估要基于业务背景,衡量指标的选择也要基于业务背景。不存在某一个完美的衡量指标。

结论

在这篇文章中,我们了解了分类器的基本概念。分类器在数据科学中是无所不在的,也有很多算法可以应用在分类器中,每个算法都有各自的优势和劣势。我们将在后面的文章中讨论其中的几种算法。

翻译:TalkingData

作者:Pradeep Menon

来源:Mudium

原文链接:https://towardsdatascience.com/data-science-simplified-part-10-an-introduction-to-classification-models-82490f6c171f

展开阅读全文

页面更新:2024-04-29

标签:进阶   模型   正确率   申请者   阴性   阳性   据点   矩阵   线性   人中   算法   精确   贷款   入门   例子   特征   指标   机器   游戏

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top