白话LASSO,如果不懂,请放弃统计

LASSO是由1996年Robert Tibshirani首次提出,全称Least absolute shrinkage and selection operator。该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值,同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。

哎!太学术,上面对于统计小白,简直就是不让咱们听懂的意思吗?下面听听小凡凡说的三体刘慈欣版LASSO。

这是一个人类触碰“黑暗森林法则”而引发的故事


3275年,地球科技异常发达,但是对于外星人而言,我们还是不可一击的低等生物。


由于人类对宇宙的好奇,不断向外太空发射信号,期望寻找地外文明,以缓解地球的孤独。


在宇宙中的卡拉达星球,卡拉达人因为资源的掠夺和战争,该星球已经不再适合居住,他们便派出涉猎人在宇宙中寻找适合居住的星球。


某一天,一个外星涉猎人在银河系附近,突然收到来自人类的“问候”信号,便立马将信号的宇宙坐标汇报给的卡拉达星球,并请求卡拉达星球立即派出星际战舰来征服地球,然而这段通讯信号,也同样被地球文明接收到。


地球立马召开多国首脑会议,商讨应对策略。最终决定,逃离地球,全部移民人类3015年发现的斯塔特星球,斯塔特星球生存环境恶劣,地球人将死囚犯送至该星球,让其自生自灭,然而大难临头之际,人类不得不逃往这一待星球。


由于时间紧迫,人类的运载能力只能将3万人运达斯塔特星球,虽然多国总部给各国一定的指标,一些人获得消息,也暴力前往星际通航基地,最终有10万人进入基地,为了防止更多的人到达进入基地,基地开启封锁隐藏模式,与外界隔绝。


然而这10万人也远远超过运载能力,战舰舰长高松必须做出高慧的决策,让其中的3万人乘坐战舰离开,然而这10万人并不知道,战舰可以乘坐多少人离开。


在喧闹争吵之中,高松在战舰内,决定采用惩罚规则,对着10万人进行筛选,通过广播传达登舰规则。


(1)规则第一条:凡是登舰者,必须缴纳1000万人民币星际交通费,如果后面规则不符合,1000万人民关币不退。此规则直接筛掉2万人,尚有8万人。


(2)高松舰长宣读第二条:有血缘关系的人,只能1人入选。

此条颁布出,结果漫长的等待,各个有血缘关系的家族,各自推举1人登舰,此时还剩6万人。


(3)第三条:夫妻二人者,只能一人登舰。还剩5万人



(4)第四条:愿意登舰者,达到斯塔特星球,必须做3年苦役!此时还剩3万人


(5)第五条:愿意登舰者,签署协议,如果航行过程中,食物短缺,愿意被随机抽中,作为大家的食物(有点残忍),还剩1万人。


(6)第六条:为了表示诚信,先自愿剁去1个小指。还剩5000人


(7)第七条:如果自愿再剁去1个小指者,可以先进入候舰大厅。还剩1000人


(8)第八条:自愿承受一次休克式点击,能够自行苏醒者,直接登舰,此时没有人同意,最终0人入选。


LASSO回归是一种带有惩罚规则的回归,不是你想加入模型就进入的,进入就必须付出代价。

对所有候选X进行逐渐加大的惩罚代价,以让X表示衷心,最终让每个X牺牲自己的生命,也就是X的回归系数为0。


在逐渐加大惩罚规则的过程中,Y也就测试出了每个X对自己的衷心程度。如下图,左边喧闹烦嚣,随着惩罚验证,逐个香消陨落,X的系数投向0的怀抱,最终在最右边,陷入一遍死寂,大家终究是个0。


白话LASSO,如果不懂,请放弃统计

如下图更如是...

白话LASSO,如果不懂,请放弃统计

然而,在此过程中,Y就对X的衷心一幕了然。最右边对自己就越衷心,所以,如果要移民它星,要带着自己的团队,那么根据自己能带几个人的能力,从右边往左边选就可以了。


这就是LASSO的变量筛选规则。


可是,选团队,带团队,并不是完全靠带对自己衷心的,而是即衷心,同时带着这几个人,组合起来的战斗力还要最强的。


那么这么一来,这个团队就有若干种组合,我们会排列出几种组合,然后PK,选取一种最优组合。这就是交叉验证。


通常我们会进行5重交叉,或者10重交叉。讲简单点就是进行5种或10种组合,然后找到最佳。


那么如何寻找呢,我们会做一个交叉验证的图,图中MSE就是误差的意思,那么我们可以找到误差最小的点(下图左侧虚线),找到最小点的组合,就是我们要确定的最终入选的团队。


有人认为按照这个最小,有点没有人性,太严格了,59.5都不给过一样,于是适当放大了1个SE,下图右侧虚线。

白话LASSO,如果不懂,请放弃统计

这就是LASSO!统计学习您必须先学思想,再学软件操作,思想都懂了,软件操作就是那么回事,网上资料太多了!


再说一点,LASSO是一种加载,就像您买了车,自行安装导航一样。


所以,我们可以进行线性回归的LASSO,逻辑回顾的LASSO,COX回归的LASSO,Probit回归的LASSO等等等。这点很重要,很多人分不清楚。


另外,LASSO之后,必须交叉验证,这两套技术是双胞胎,不然您无法选择出最优的团队!

展开阅读全文

页面更新:2024-04-25

标签:卡拉   舰长   组合   虚线   战舰   白话   系数   衷心   星球   宇宙   信号   地球   团队   人类   规则   基地   数码

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top