白话LASSO，如果不懂，请放弃统计

LASSO是由1996年Robert Tibshirani首次提出，全称Least absolute shrinkage and selection operator。该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型，使得它压缩一些回归系数，即强制系数绝对值之和小于某个固定值，同时设定一些回归系数为零。因此保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。

哎！太学术，上面对于统计小白，简直就是不让咱们听懂的意思吗？下面听听小凡凡说的三体刘慈欣版LASSO。

这是一个人类触碰“黑暗森林法则”而引发的故事

3275年，地球科技异常发达，但是对于外星人而言，我们还是不可一击的低等生物。

由于人类对宇宙的好奇，不断向外太空发射信号，期望寻找地外文明，以缓解地球的孤独。

在宇宙中的卡拉达星球，卡拉达人因为资源的掠夺和战争，该星球已经不再适合居住，他们便派出涉猎人在宇宙中寻找适合居住的星球。

某一天，一个外星涉猎人在银河系附近，突然收到来自人类的“问候”信号，便立马将信号的宇宙坐标汇报给的卡拉达星球，并请求卡拉达星球立即派出星际战舰来征服地球，然而这段通讯信号，也同样被地球文明接收到。

地球立马召开多国首脑会议，商讨应对策略。最终决定，逃离地球，全部移民人类3015年发现的斯塔特星球，斯塔特星球生存环境恶劣，地球人将死囚犯送至该星球，让其自生自灭，然而大难临头之际，人类不得不逃往这一待星球。

由于时间紧迫，人类的运载能力只能将3万人运达斯塔特星球，虽然多国总部给各国一定的指标，一些人获得消息，也暴力前往星际通航基地，最终有10万人进入基地，为了防止更多的人到达进入基地，基地开启封锁隐藏模式，与外界隔绝。

然而这10万人也远远超过运载能力，战舰舰长高松必须做出高慧的决策，让其中的3万人乘坐战舰离开，然而这10万人并不知道，战舰可以乘坐多少人离开。

在喧闹争吵之中，高松在战舰内，决定采用惩罚规则，对着10万人进行筛选，通过广播传达登舰规则。

（1）规则第一条：凡是登舰者，必须缴纳1000万人民币星际交通费，如果后面规则不符合，1000万人民关币不退。此规则直接筛掉2万人，尚有8万人。

（2）高松舰长宣读第二条：有血缘关系的人，只能1人入选。

此条颁布出，结果漫长的等待，各个有血缘关系的家族，各自推举1人登舰，此时还剩6万人。

（3）第三条：夫妻二人者，只能一人登舰。还剩5万人

（4）第四条：愿意登舰者，达到斯塔特星球，必须做3年苦役！此时还剩3万人

（5）第五条：愿意登舰者，签署协议，如果航行过程中，食物短缺，愿意被随机抽中，作为大家的食物（有点残忍），还剩1万人。

（6）第六条：为了表示诚信，先自愿剁去1个小指。还剩5000人

（7）第七条：如果自愿再剁去1个小指者，可以先进入候舰大厅。还剩1000人

（8）第八条：自愿承受一次休克式点击，能够自行苏醒者，直接登舰，此时没有人同意，最终0人入选。

LASSO回归是一种带有惩罚规则的回归，不是你想加入模型就进入的，进入就必须付出代价。

对所有候选X进行逐渐加大的惩罚代价，以让X表示衷心，最终让每个X牺牲自己的生命，也就是X的回归系数为0。

在逐渐加大惩罚规则的过程中，Y也就测试出了每个X对自己的衷心程度。如下图，左边喧闹烦嚣，随着惩罚验证，逐个香消陨落，X的系数投向0的怀抱，最终在最右边，陷入一遍死寂，大家终究是个0。

如下图更如是...

然而，在此过程中，Y就对X的衷心一幕了然。最右边对自己就越衷心，所以，如果要移民它星，要带着自己的团队，那么根据自己能带几个人的能力，从右边往左边选就可以了。

这就是LASSO的变量筛选规则。

可是，选团队，带团队，并不是完全靠带对自己衷心的，而是即衷心，同时带着这几个人，组合起来的战斗力还要最强的。

那么这么一来，这个团队就有若干种组合，我们会排列出几种组合，然后PK，选取一种最优组合。这就是交叉验证。

通常我们会进行5重交叉，或者10重交叉。讲简单点就是进行5种或10种组合，然后找到最佳。

那么如何寻找呢，我们会做一个交叉验证的图，图中MSE就是误差的意思，那么我们可以找到误差最小的点(下图左侧虚线)，找到最小点的组合，就是我们要确定的最终入选的团队。

有人认为按照这个最小，有点没有人性，太严格了，59.5都不给过一样，于是适当放大了1个SE，下图右侧虚线。

这就是LASSO！统计学习您必须先学思想，再学软件操作，思想都懂了，软件操作就是那么回事，网上资料太多了！

再说一点，LASSO是一种加载，就像您买了车，自行安装导航一样。

所以，我们可以进行线性回归的LASSO，逻辑回顾的LASSO，COX回归的LASSO，Probit回归的LASSO等等等。这点很重要，很多人分不清楚。

另外，LASSO之后，必须交叉验证，这两套技术是双胞胎，不然您无法选择出最优的团队！

展开阅读全文

页面更新：2024-04-25

标签：卡拉舰长组合虚线战舰白话系数衷心星球宇宙信号地球团队人类规则基地数码

1 2 3 4 5

白话LASSO，如果不懂，请放弃统计

全网最全的苹果 iPhone12 上手简单聊聊使用感受吧

2021年怎么赚钱，看到你就赚到

夜游东方神话方特，领略夏日另类体验

干货！一文教会你如何对临床资料进行数据分析

iOS 14.3 Beta版：无需二次跳转，快捷指令全新体验

创业财富小故事：一个宠物店的女主人

今日份午餐，必胜客走起，啦啦啦

好物推荐：童年回忆小霸王学习机

近期的伙食究竟有多好，看看你就知道了

新书推荐：医学统计学第五版

今日份食堂午餐，来晒晒你的午餐吧

任天堂小霸王掌上游戏机400种游戏全新经典怀旧SUP双人充电游戏机

同一排量的汽车，两驱和四驱有啥不一样？

多链农场收益指南

欢迎PICC及丰融公司领导来我院参观交流

元宇宙？目前的阶段：链游

未来元宇宙市场规模将达到10万亿美金

从Axie Infinity谈元宇宙的六大精神

如何正确清理你新买的MacBook Pro？（数码产品保养指南）

行业变革新信号，华为全屋智能战略升级加速智慧生态新发

男生都喜欢的数码包？côte&ciel New Nile Obisian

高合汽车突破中国品牌天花板，揭秘丁磊与团队的“初心”

实测入门级存储组合 HP V6系列内存+S700 SSD

R7 4800H+RX5500M“全A”组合首测微星Bravo

实战i9+2080Ti高配整机加垂直风道装机组合