编者按:
在前面的几篇文章中,我们详细讨论了回归模型。费尔南多已经建立了一个多变量回归模型,具体形式如下:
价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度
该模型通过发动机大小、马力和宽度来预测或者说估算汽车的价格。回顾之前的内容,多变量回归模型是假定了预测因子是相互独立的,即发动机大小、马力和宽度之间是不相关的。
但是在实际中,变量之间相互独立的情况很少,如果马力、发动机大小和宽度之间存在关系,该怎么办?可以对这些关系建模吗?
在本篇内容中,将解决这些问题,并解释相关性的概念。
预测因子之间相互独立,意味着只要一个预测因子发生了变化,那么就会对目标产生影响。这种影响与其他预测因子的存在和变化无关,目标和预测因子之间的关系是加性的、线性的。
例如费尔南多的方程式:
价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度
可以解释为,发动机大小每改变1个单位,汽车价格就改变87.34美元。
而这种解释并没有考虑汽车宽度与发动机大小之间的联系。
会不会汽车越宽,发动机越大?
考虑到上述情况,费尔南多创建了一个全新的模型,其形式如下:
价格 = β0 + β1.发动机大小 + β2.马力 + β3.宽度 + β4.(发动机大小.宽度)
交互项又是如何捕捉发动机大小与宽度之间的关系呢?
我们对上述等式进行了重新组合:
价格 = β0 + (β1 + β4. 宽度) 发动机大小 + β2. 马力 + β3. 宽度
现在,可以将β4可以解释为,宽度每增加1个单位对发动机尺寸的影响。
费尔南多根据上述理论重新构建了模型,在统计软件中得到如下的参数:
该等式变成:
价格 = 51331.363 – 1099.953 x 发动机大小 + 45.896 x 马力 – 744.953 x 宽度 + 17.257 x 发动机大小:宽度
价格 = 51331.363 – (1099.953 – 17.257 x 宽度)发动机大小 + 45.896 x 马力 – 744.953 x 宽度
让我们来解释这些系数:
请注意,汽车的宽度并不重要。那么将它包含在模型中是否有意义?
这里就要提到分层原则(hierarchical principle):
分层原则
当模型中包含交互时,主效应也需要包含在模型中,即使个体变量在模型中不显著。
费尔南多现在运行该模型,并通过测试数据测试模型性能。
该模型在测试数据集上表现良好。测试数据的调整R平方值为0.8175622 =>该模型能够解释未知数据中81.75%的变化。
费尔南多现在有了预测汽车价格的最优化模型,可以去购买汽车了。
回归模型是数据科学的主力,对数据科学家来说也是一个优秀的工具。有效使用回归模型,可以出色的解决大量现实生活中的数据科学问题。然而,回归模型也存在局限性:
01,非线性关系
线性回归模型假定变量之间关系是线性的。如果不是线性关系,那么使用线性回归模型可能达不到想要的效果。
实用提示:可以使用像对数(log)这样的方式,将非线性关系转换为线性关系
02,多重共线性
共线性是指两个预测变量彼此相关的情况。当有很多预测因子且预测因子之间相互关联时,就被称为多重共线性。如果预测因子彼此相关,则很难将特定预测因子对目标的影响区分出来。
实用提示:通过谨慎选择预测变量来简化模型。不要选择太多相关的预测变量,或者通过使用主成分(principal components)技术来创建新的不相关变量。
03,异常值的影响
异常值是远离模型预测值的一个点。如果目标变量中有异常值,模型将被扩展以适应它们。针对少数离群点进行太多模型调整,会使得模型向异常值倾斜。这对模型的拟合没有任何好处。
实用提示:在建模时移除异常值。如果目标中存在太多异常值,则可能需要多个模型。
截止目前的文章中,我们先后探讨了简单线性回归模型、多变量回归模型、模型选择方法、双对数回归模型、定性变量和变量间的相互作用。后续的文章我们将继续介绍机器学习的基础知识,欢迎关注和分享~
翻译:TalkingData
作者:Pradeep Menon
来源:Mudium
原文链接:https://datascientia.blog/2017/08/27/dss-p9-interactions/
页面更新:2024-05-18
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号