机器学习从入门到进阶⑨丨回归模型的交互性与局限

编者按：

在前面的几篇文章中，我们详细讨论了回归模型。费尔南多已经建立了一个多变量回归模型，具体形式如下：

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

该模型通过发动机大小、马力和宽度来预测或者说估算汽车的价格。回顾之前的内容，多变量回归模型是假定了预测因子是相互独立的，即发动机大小、马力和宽度之间是不相关的。

但是在实际中，变量之间相互独立的情况很少，如果马力、发动机大小和宽度之间存在关系，该怎么办？可以对这些关系建模吗？

在本篇内容中，将解决这些问题，并解释相关性的概念。

概述

预测因子之间相互独立，意味着只要一个预测因子发生了变化，那么就会对目标产生影响。这种影响与其他预测因子的存在和变化无关，目标和预测因子之间的关系是加性的、线性的。

例如费尔南多的方程式：

价格 = -55089.98 + 87.34 x 发动机大小 + 60.93 x 马力 + 770.42 x 宽度

可以解释为，发动机大小每改变1个单位，汽车价格就改变87.34美元。

而这种解释并没有考虑汽车宽度与发动机大小之间的联系。

会不会汽车越宽，发动机越大？

考虑到上述情况，费尔南多创建了一个全新的模型，其形式如下：

价格 = β0 + β1.发动机大小 + β2.马力 + β3.宽度 + β4.(发动机大小.宽度)

等式中的“β1. 发动机大小 + β3. 宽度”称为主效应（main effect）。
“发动机大小 x 宽度”则称为交互项（interaction term）。

交互项又是如何捕捉发动机大小与宽度之间的关系呢？

我们对上述等式进行了重新组合：

价格 = β0 + (β1 + β4. 宽度) 发动机大小 + β2. 马力 + β3. 宽度

现在，可以将β4可以解释为，宽度每增加1个单位对发动机尺寸的影响。

模型构建

费尔南多根据上述理论重新构建了模型，在统计软件中得到如下的参数：

该等式变成：

价格 = 51331.363 – 1099.953 x 发动机大小 + 45.896 x 马力 – 744.953 x 宽度 + 17.257 x 发动机大小:宽度

价格 = 51331.363 – (1099.953 – 17.257 x 宽度)发动机大小 + 45.896 x 马力 – 744.953 x 宽度

让我们来解释这些系数：

发动机大小、马力和发动机大小:宽度（发动机大小与宽度的交互项）都很重要。
汽车的宽度并不重要。
将发动机尺寸增加1个单位可将价格降低1099.953美元。
马力提高1个单位，价格上涨45.8美元。
交互项很重要，这意味着真正的关系不是叠加的。
将发动机大小增加1个单位也会使价格提高（1099.953 - 17.257 x宽度）。
测试数据的调整R平方值为0.8358 =>该模型解释了83.5％的变化。

请注意，汽车的宽度并不重要。那么将它包含在模型中是否有意义？

这里就要提到分层原则（hierarchical principle）：

分层原则

当模型中包含交互时，主效应也需要包含在模型中，即使个体变量在模型中不显著。

费尔南多现在运行该模型，并通过测试数据测试模型性能。

该模型在测试数据集上表现良好。测试数据的调整R平方值为0.8175622 =>该模型能够解释未知数据中81.75％的变化。

费尔南多现在有了预测汽车价格的最优化模型，可以去购买汽车了。

回归模型的局限性

回归模型是数据科学的主力，对数据科学家来说也是一个优秀的工具。有效使用回归模型，可以出色的解决大量现实生活中的数据科学问题。然而，回归模型也存在局限性：

01，非线性关系

线性回归模型假定变量之间关系是线性的。如果不是线性关系，那么使用线性回归模型可能达不到想要的效果。

实用提示：可以使用像对数（log）这样的方式，将非线性关系转换为线性关系

02，多重共线性

共线性是指两个预测变量彼此相关的情况。当有很多预测因子且预测因子之间相互关联时，就被称为多重共线性。如果预测因子彼此相关，则很难将特定预测因子对目标的影响区分出来。

实用提示：通过谨慎选择预测变量来简化模型。不要选择太多相关的预测变量，或者通过使用主成分（principal components）技术来创建新的不相关变量。

03，异常值的影响

异常值是远离模型预测值的一个点。如果目标变量中有异常值，模型将被扩展以适应它们。针对少数离群点进行太多模型调整，会使得模型向异常值倾斜。这对模型的拟合没有任何好处。

实用提示：在建模时移除异常值。如果目标中存在太多异常值，则可能需要多个模型。

总结

截止目前的文章中，我们先后探讨了简单线性回归模型、多变量回归模型、模型选择方法、双对数回归模型、定性变量和变量间的相互作用。后续的文章我们将继续介绍机器学习的基础知识，欢迎关注和分享~

翻译：TalkingData
作者：Pradeep Menon
来源：Mudium
原文链接：https://datascientia.blog/2017/08/27/dss-p9-interactions/

展开阅读全文

页面更新：2024-05-18

标签：费尔进阶模型等式因子线性宽度变量发动机入门异常大小机器目标单位关系价格汽车游戏

1 2 3 4 5

回顾 | 携手突围 ·TalkingData营销产品交流会

沙龙现场近期，TalkingData 分别在上海、北京举办了《携手突围 | TalkingData营销产品交流会》主题线下沙龙。为现场来宾分享了2020态势下的“营销之道”与最前沿的行业观点，本篇旨在回顾沙龙中的精彩内容。 TalkingData

机器学习从入门到进阶⑧丨回归模型中的定性变量

在之前的文章中，我们讨论了回归模型。费尔南多选出了最好的模型，他建立了一个多变量回归模型，如下：价格 = -55089.98 + 87.34 × 发动机大小 + 60.93 × 马力 + 770.42 × 宽度该模型构建了一个根据车辆发动机大小、马

机器学习从入门到进阶④丨线性回归模型

在此系列之前的文章中，已经讨论了关于统计学习的关键概念和假设验证相关内容。在本篇文章中，将进入线性回归模型的讨论。首先回顾一下之前统计学习中比较重要的几个关键点：自变量和因变量在统计学习的背景下，有两种类

赋能业务转型，AI需要这三大核心能力

导读人类的智慧宽广而复杂。有些人类成就远远超出现今机器可达的领域，要想让机器触及这些领域，还需要一段漫长的时间。对于解决抽象问题、概念生成、情绪知识、创造力甚至是自我认知，即便是最强有力的深度学习算法，也无法

TalkingData参加MMA中国线下沙龙

近日，中国无线营销联盟（以下简称MMA中国）组织的线下沙龙在北京举办。本场沙龙以“增长·新趋势——数据与技术共驱品牌营销增长”为主题，TalkingData消费事业部解决方案总监李瑞芬受邀带来主题演讲，聚焦新消费与新营销——

机器学习从入门到进阶③丨假设检验

在上一篇的文章中，我们讨论了统计学习的关键概念——参数模型、训练与测试、方差与偏差等等，今天我们再来看一看机器学习的基石概念之一假设检验。著名的物理学家爱德华·特勒曾说：“A fact is a simple statement that

TalkingData获颁腾讯云「2020年度新锐合作伙伴」

近日，腾讯云举办以“相邕而上”为主题的2020合作伙伴高层沟通会，并正式公布2020年度「星云奖」，以表彰深度合作中表现突出的明星合作伙伴。TalkingData（北京腾云天下科技有限公司）获得「2020年度新锐合作伙伴」奖项。Talki

2020年高校毕业生求职研究 | 新一轮内卷即将到来了吗？

2020年，受疫情影响，2020届高校毕业生经历了线上毕业设计答辩、线上毕业、线上面试，甚至线上入职、远程办公……以前从没想过的情境，同时，疫情导致的经济下行、就业人数增加也为他们的就业造成了更大的压力，但是他们并没有被

统计无用论？来看看统计学在大数据中的价值（上）

统计学对大数据的意义在谈大数据之前，我们首先来看看什么是数据。很长一段时间里，大家对数据的理解，可能只是停留在阿拉伯数字这个层面。近些年来，大家开始讲大数据。结果有人就开始好奇了：这个大数据和我们之前说的数据有

2020年机器学习10大研究进展

去年有哪些机器学习重要进展是你必须关注的？听听 DeepMind 研究科学家怎么说。2020 年因为新冠疫情，很多人不得不在家工作和学习，大量人工智能学术会议也转为线上。不过在去年我们仍然看到了很多 AI 技术领域的进展。Dee

用数据构建未来，TalkingData邀你共启新征程

我们是TalkingData国内领先的数据智能服务商2011-2020我们披荆斩棘、积蓄能量进入2021我们完成新一轮融资迎接新高管就任船已扬帆，即将起航现在TalkingData春季社招正式启动！四个城市、五大类别、40个职位邀请有志于 “

金融App如何提升用户留存和粘性？

用户体验（User Experience）最早被广泛认知和提及，是在上世纪90年代中期，由用户体验设计师唐纳德·诺曼（Donald Norman）提出和推广。现如今用户体验贯穿在一切产品的设计和创新过程，如用户参与建筑设计和工作环境、生活环境的

新年好，祝您新年新气象

你没看错，今天也是“新年”。除了我们最常用的公历中的元旦和农历中的春节，在干支历中，立春就是新一年的开始。干支历，也称星辰历、甲子历，是一种用60组天干地支来标记年月日时的古老历法。十二月建和二十四节气是干支历

TalkingData完成1亿美元新一轮融资

近日，TalkingData宣布获总额约1亿美元的新一轮融资。本轮融资由华润资本旗下CR Data Fund (大数据科技应用基金) 作为战略投资方领投，本轮所募集资金将重点用于TalkingData数据智能平台的产品迭代升级，完善行业客户销售

携手突围 TalkingData营销产品交流会 | 北京场

近年TalkingData深耕“营销闭环”的生态产品，在品牌效果监测（TalkingData Brand Growth ）方面与阿里妈妈大数据营销平台、巨量引擎、爱奇艺、风行、芒果TV等等多家平台对接，为广告主创造更智能化的品牌广告营销体验。另

上滑加载更多 ↓

机器学习从入门到进阶⑨丨回归模型的交互性与局限

概述

模型构建

回归模型的局限性

总结

回顾 | 携手突围 ·TalkingData营销产品交流会

机器学习从入门到进阶⑧丨回归模型中的定性变量

机器学习从入门到进阶④丨线性回归模型

赋能业务转型，AI需要这三大核心能力

TalkingData参加MMA中国线下沙龙

机器学习从入门到进阶③丨假设检验

TalkingData获颁腾讯云「2020年度新锐合作伙伴」

2020年高校毕业生求职研究 | 新一轮内卷即将到来了吗？

统计无用论？来看看统计学在大数据中的价值（上）

2020年机器学习10大研究进展

用数据构建未来，TalkingData邀你共启新征程

金融App如何提升用户留存和粘性？

新年好，祝您新年新气象

TalkingData完成1亿美元新一轮融资

携手突围 TalkingData营销产品交流会 | 北京场

机器学习从入门到进阶⑧丨回归模型中的定性变量

机器学习从入门到进阶④丨线性回归模型

机器学习从入门到进阶③丨假设检验

2020年机器学习10大研究进展

《智慧社区信息模型标准》发布，TalkingData参与编撰

机器学习从入门到进阶⑦丨双对数回归模型

婚恋人群洞察丨30岁+，有车有房打游戏，想结婚但不将就

机器学习从入门到进阶⑩丨分类模型入门

统计学跟我们有关系吗？

机器学习从入门到进阶⑫丨重抽样方式