在工业生产活动中,有一类常见机器学习问题,就是如何基于有噪声样本标签训练模型,以进行故障检测和分类。
先解释下什么是有噪声样本标签,它指的是训练模型用的样本标签并非完全准确,部分样本的标签有标错的情况。
对于这个问题,为了便于大家理解,我们以一个成功实践的项目为例,以实例为大家讲述如何实现。
在大型工业设备中,有一类广泛使用的电子开关,这些电子开关使用久了,会逐渐老化故障,进而影响设备运行,因此需要替换。
目前业内的常见做法是首先进行一系列的人工测量,然后通过经验来判断电子开关是否已经损坏,并将损坏的电子开关替换。这里面测量数据只是用作参考,实际上并没有明确的损坏标准,操作中还是以经验为主。
这种方式其实是存在很多问题的。
比如,人和人之间是有个体差异的,每个人的经验是不一样的,这样就导致最终的判断结果也没法相同。
就有可能导致本来正常的电子开关,被判断为坏的或者即将损坏的,以此进行替换就会造成浪费。
同样的,也有可能把坏的或者即将损坏的判断为正常的电子开关,继续使用,导致更大的损失。
因此,如果能够利用机器学习的技术,避免人工经验判断的误差或错误,提升判断的准确性,就能给我们的客户带来很大的价值。
于是,我们开始考虑通过机器学习如何去实现?
对于机器学习来说,解决这类问题的难点在于,样本数据的标签是有噪声的或者说不完全准确的。
如果直接使用这些样本进行训练,无论我们采用哪种分类算法(决策树、逻辑回归 ,亦或是近年较为流行的 XGBoost),最终训练出的模型都是对噪声样本拟合较好的“有噪声”的模型。
如果我们用这样的模型去判断和分类,准确度是很难超过经验丰富的“老司机”的,所以这样的模型并没有多大的意义。
那么基于永洪的产品 Yonghong Z-Suite ,我们可以怎么做呢?
对Z-Suite比较熟悉的朋友都知道,我们的产品里内置了常见的算法模型(分类、聚类、决策树、神经网络、关联模型、时序预测等),采用图形化操作,可以通过简单的拖拽,快速实现典型数据挖掘算法。
除此之外,还内置了R语言支持,提供了强大的模型扩展能力。
因此,我们借助这一能力,通过R语言模型扩展实现的算法,解决了有噪声样本标签分类的问题。
我们扩展实现的这种算法,是根据MIT的一篇论文(链接:https://arxiv.org/abs/1705.01936)提供的思路,将其与 XGBoost 分类算法结合而成的。
这种算法的思路如下:
首先,训练模型的样本数据来自于历史测量数据,数据的标签都是人工根据经验判断的,所以会发生标签误判的情况,换句话说,训练模型使用的是有噪声的样本数据。
然后使用常规分类算法比如 Logistic Regression、Bayes,SVM、XGBoost 等在有噪声的样本数据集上训练出分类器;
分类器对预测的正负标签给出概率(0~1),概率越大说明预测为正标签的可信度越高,概率越小说明预测为负标签的可信度越高,概率接近0.5的预测标签的可信度并不高,可能是有噪声的数据;
假定有噪声的数据在数据集中占比不大,如果剔除可信度不高的数据,用剩下的相对可靠的数据训练分类模型,那么分类器的准确度理论上将有所提高。
基于以上思路,我们在 Yonghong Z-Suite 中实现的分类算法步骤如下(详细算法推导论证过程可参照上面提到的论文):
该算法通过排除训练模型中不可靠(不一致)的数据,提升了剩余数据的质量,并利用这些数据进行模型训练,因而提高了模型的准确度,有效的解决了有噪声样本训练带来的模型不准的问题。
我们将该模型应用在上述电子开关测试项目,并将其与电子开关进行二次测试(对换下的电子开关的深入测试,基本可以认为是真实标签)的结果进行对比,发现预测准确度从人工预测的60%~70%提升到了80%左右,整体的预测准确度提升了近20%,这为我们的客户带来了十分明显的价值,客户对我们的这一算法赞赏有加。
在此基础上,我们将 Logistic Regression、Bayes 和 XGBoost 三种模型集成到一起,作为 RankPruning 算法的基础模型。测试结果表明,模型精度在 XGBoost 基础上,又有了近2%的额外的小幅提升。
亚瑟·克拉克说过:“任何足够先进的技术都等同于魔术。”
机器学习在今天互联网的环境里,可能已经不是什么新鲜事了,但是对于传统的工业和制造业来说,能够大幅度提升效率、节约成本的技术,就是能为他们带来价值的。
同样的,我们也觉得机器学习的真正应用不是通过概念或者思想的方式,而是通过实践。我们在把机器学习技术实际落地、想办法为客户创造价值的过程中,也在逐渐对机器学习的理解进入更深的层次。
我们将这个经验分享出来,目的是帮助大家在基于有噪声样本标签,进行故障检测和分类的时候,能够有更科学和精确的方式,也为大家在大数据领域机器学习的应用提供一些具有参考价值的案例。
页面更新:2024-05-17
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号