机器学习从入门到进阶⑪丨逻辑回归

在上一篇文章中,我们讨论了分类、分类器的类型以及分类器的评估。此前,我们已经深入讨论过回归模型。本文,我们再来进一步讲讲回归模型在分类任务中的应用。

逻辑回归是一种广泛应用于分类的回归模型。

按照惯例,我们先来看一个案例。

“没有钱”银行想构建一个模型,用来预测哪些贷款客户会违约。他们提供的数据集如下:

机器学习从入门到进阶⑪丨逻辑回归

可以使用下面这些特征来构建模型:

这是一个分类问题。

逻辑回归是回归模型的落地,它将回归模型变为分类器。

进入正题之前,我们先来讲讲为什么vanilla回归模型不能作为分类器使用。

目标“违约”的值为0或1,我们可以把这个值转为概率,转换过程如下:

之前讲线性回归模型时曾提到,在回归模型中,我们将因变量y定义为自变量的函数。简单来说,当只有一个自变量x时,方程式为:

y = β0 + β1.x

在这个贷款违约分类模型中,自变量是客户的信用分数,因变量(y)则是需要估算的客户可能违约的概率,即P(default)。

方程式可写为:

P(default) = β0 + β1.信用分数

用统计软件对模型进行计算,得出了以下结果:

用来估算违约概率的方程式则变为:

P(default) = 0.73257 + -9.9238e-05.信用分数

那如果有的客户信用分数特别高(比如满分8000分),那这个人有违约的可能性吗?我们来计算一下:

0.73257 + -9.9238e-05 x 8000 = -0.06134

如果我们把p(default) 与信用分数延回归线绘出,则得到下图:

机器学习从入门到进阶⑪丨逻辑回归

Vanilla回归模型遇到了挑战。-0.06334是一个负概率,没有意义。从图上也可以看出,对于高信用分数,其违约概率低于0,而概率的数值需要介于0和1之间。

我们该如何转换公式,来让概率数值保持在0和1之间呢?

这里就要用到sigmoid 函数。

Sigmoid 函数或者说逻辑函数,是一种具有S形曲线特性的数学函数。数学上,它被定义为:

sigmoid = ey/(1+ey)

其图形如下:

机器学习从入门到进阶⑪丨逻辑回归

它将所有数值转换为介于0和1之间。如果我们有一组介于-5和10之间的数据,用Sigmoid 函数来进行转换,即可将所以值都转换到介于0和1之间。

机器学习从入门到进阶⑪丨逻辑回归

这样一来,借助Sigmoid 函数,就可以将任何数字转换为等价的概率。

现在我们已经有了将预测目标转换为概率的方法,接下来看看如何完成预测。经过Sigmoid 函数的转换,回归方程变为:

y = β0 + β1.信用分数

P(default) = ey/(1 + ey)

P(default) = sigmoid(y)

那么,当信用分数高如8000分时,Sigmoid 模型会发生什么:

y = 0.73257 + -9.9238e-05 x 8000 = -0.06134

P(default) = sigmoid(y) = sigmoid(-0.06134) = 0.4846

P(default) = 48.46% => IsDefault = 0

可以通过增加变量来优化逻辑回归模型。所需做的就是将简单线性回归模型增强为多变量回归模型方程。示例如下:

y2 = β0 + β1.信用分数 + β2. 贷款金额 + β3.信用问题数量 + β4. 每月债务+ β5.距离上次拖欠还款的时长+ β6.拥有信用卡的数量

P(default) = sigmoid(y2)

让我们试试用这个模型来预测潜在违约者。将贷款数据集按80:20的比例(80%训练数据、20%测试数据),分为训练数据集和测试数据集。

还记得吧,可以用于评估分类器的衡量指标很多。我们将使用AUC作为评估这个模型的衡量指标,看看新模型的表现如何。使用机器学习程序在测试数据集上对模型进行评估,结果如下。

机器学习从入门到进阶⑪丨逻辑回归

新模型的表现并不太好。在测试数据集上的AUC分数只有60%左右。

我们现在已经了解了逻辑回归模型的原理,以及如何用逻辑回归模型进行分类。可惜,这个分类器的AUC分数并不尽如人意,我们需要寻找更好的模型。在下一篇文章中,我们将聊聊交叉验证。

翻译:TalkingData

作者:Pradeep Menon

来源:Mudium

原文链接:https://datascientia.blog/2017/10/02/data-science-simplified-part-11-logistic-regression/

展开阅读全文

页面更新:2024-05-19

标签:因变量   进阶   自变量   逻辑   方程式   数值   概率   函数   金额   分数   贷款   入门   模型   数量   机器   信用   客户   数据   游戏

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top