[NeurIPS 2022] 基于动力学的深度主动学习

导语

在人工智能的快速发展中，深度学习已成为众多领域的重要工具，包括图像识别、自然语言处理和预测建模等。然而，深度学习模型通常需要大量的标记数据来进行训练，这不仅消耗大量时间，而且需要大量的计算资源。这里，主动学习（Active Learning）出现了，它通过智能地选择有代表性的数据样本来进行标记和训练，从而减少了所需的数据量和计算成本。

最近，一篇题为“Deep Active Learning by Leveraging Training Dynamics”的论文，发表在NeurIPS 2022，进一步推动了深度主动学习的研究。该研究来自伊利诺伊大学厄巴纳-香槟分校和新南威尔士大学的合作，旨在探索如何通过利用神经网络动力学来改善深度主动学习的效率。

文章链接：https://arxiv.org/abs/2110.0861

介绍

深度学习，尤其是神经网络模型，已经在各种任务中取得了卓越的表现。然而，它们的成功往往依赖于大量的标记数据，这使得它们在数据稀缺的情况下变得不太实用。此外，深度学习模型也常常需要大量的计算资源和时间来训练，这增加了其应用的复杂性和成本。

主动学习作为一个解决方案，试图通过智能地选择最有价值的数据样本来进行标记和训练，从而减少所需的数据量和计算成本。然而，尽管主动学习已经在传统的机器学习设置中得到了广泛的研究，但其在深度学习场景中的应用仍然是一个相对较新和未开发的研究领域。

对于从经典理论（非神经网络理论）角度来理解和分析主动学习，一个很大的问题是这些经典设置的理论分析可能不适用于过参数化的深度神经网络，其中传统的智慧是无效的。因此，从理论上讲，这样的分析很难指导我们设计实用的主动学习方法。此外，从经验上看，深度主动学习，借鉴了经典理论和方法的观察和见解，已经被观察到无法在一些应用场景适用。

另一方面，神经网络的优化和泛化性能的分析近年来在深度学习理论方面有了一些令人兴奋的发展。使用梯度下降的深度神经网络的训练动态可以通过无限宽度网络的神经切线核（NTK）来表征。这进一步被用来通过Rademacher复杂度分析来表征过参数化网络的泛化。因此，我们受到启发，提出这样一个问题：

我们如何为深度神经网络设计一个具有理论依据的实用和通用的主动学习方法？

为了回答这个问题，我们首先探讨了模型在测试数据上的性能与过参数化深度神经网络在训练数据上的收敛速度之间的关系。基于NTK框架，我们理论上展示了，如果一个深度神经网络收敛得更快（“更快训练”），那么它往往具有更好的泛化性能（“更好泛化”）：

我们通过Alignment来连接优化和泛化

其中优化理论：

连接桥梁：

先看看优化和桥梁的关系：

泛化理论：

泛化和桥梁的关系：

受到上述连接的启发，我们首先引入训练动力学，即训练损失对迭代的导数，作为一个代理来定量描述训练过程。在此基础上，我们正式提出了我们的通用和理论驱动的深度主动学习方法，dynamicAL，它将为一组最大限度地增加训练动态的未标记样本查询标签。为了仅使用未标记样本计算训练动态，我们利用两种放松方法，伪标签和子集近似来解决这个非平凡的子集选择问题。我们的放松方法能够有效地估计训练动态，并通过将复杂度从O(Nb)降低到O(b)来有效地解决子集选择问题。

关于实验，我们通过在三个数据集上进行广泛的实验来实证验证了我们的理论，这三个数据集是CIFAR10，SVHN和Caltech101，使用三种类型的网络结构：CNN，ResNet和VGG。我们首先显示子集近似提供的子集选择问题的结果接近全局最优解。此外，在主动学习设置下，我们的方法不仅胜过其他基线，而且在大型深度学习模型上也具有很好的扩展性。

总结

在这项工作中，我们弥合了深度神经网络的理论发现和实际世界的深度主动学习应用之间的差距。通过探索泛化性能和训练动态之间的关系，我们提出了一种基于理论的方法，dynamicAL，它选择样本以最大化训练动态。我们证明，在超宽条件下，训练的收敛速度和泛化性能是（积极地）强相关的，我们显示最大化训练动态将导致更低的泛化误差。从经验上看，我们的工作表明，dynamicAL不仅在各种设置中始终胜过强基线，而且在大型深度学习模型上也具有很好的扩展性。

展开阅读全文

页面更新：2024-03-30

标签：深度主动神经网络子集动力学样本标记模型理论动态数据

1 2 3 4 5

[NeurIPS 2022] 基于动力学的深度主动学习

导语

介绍

总结

暨南大学首个全国重点实验室在穗启动建设

基于VGG16的图像相似度比较

“赵”酱紫讲丨提高网络安全意识，从娃娃抓起！

柳梧铁路全线首座桥梁工程主体完工

我在超化研究上的日志采集架构设计

2023年中国国际广电产业交流会在荷兰举办

为什么Web UI开发这么难

专精特新·绝活丨打破欧美国家垄断！国产“音圈电机”为何寿命更长？

机器人全产业链加快创新发展

从“实验室”走向“应用场”-衡水搭建全链条转移转化体系加快京津科技成果落地

来看！这些水利领域“黑科技”齐亮相

科普干货满满！各地开展全国科普日活动

来场“数字乡村”大科普：中国联通亮相全国科普日主场活动

诺贝尔基金会宣布增加今年诺奖奖金

SQL - 数据库中的分支循环结构 159

SQL - 数据库中的分支循环结构 159

大计算、新数据、强融合-中国算力算出新型生产力

无线电赋能大数据产业“电力十足”

黄河数据中心上线助力黄河流域数字经济发展

杭州亚运，与5000年文化深度邂逅

深度国产操作系统Deepin 15体验：从Windows系统转型的Li

洗米华入狱9个月，儿子周柏豪首发国外生活动态

抖音大规模实践，火山引擎向量数据库是这样炼成的

国庆杭州游客量猛涨，多个第三方平台晒国庆长假大数据预

数据结论呈现-以快递数据为例