人工智能之-理解机器学习概念和最通用算法：最近邻算法

“学习”是人工智能领域的重要专题。要搞清楚这个问题，就要回答诸如“学习”是什么？人类是如何学习的？机器能够具备像人一样的学习能力么?如果可以实现方式与人的方式一致么？无可否认，MIT的老师确实不同凡响，50分钟的课程给出了机器学习的基本脉络和框架，让我对“学习”概念本身有了更进一步的认识。在了解清楚了知识脉络之后，对具体细节的把握和应用才会更加准确。除了学习的概念，对于“学习”主题中的最近邻算法也有了更进一步的认识。下面把课程的笔记给大家做个分享，希望对大家理解这个主题有所帮助。

“学习”可以分为两类：第一大类是基于规则的学习，机器比较擅长，通常是从既有的数据中挖掘出知识。这个当中又分为三种，第一种是模式识别：包括最近邻等算法，实例如专家问答系统、模式匹配识别等等都属于这一类；第二种是朴素仿生学的方法，包括最近最热的神经网络、遗传算法；第三种是Boosting方法，源自理论工作者的贡献，将不同类型的模型集成在一起。第二大类是基于约束的额学习，人类更加擅长，分为两种：第一种是one shot learning，因为人类可以从确定的知识中进行学习，而不是从大量的数据中挖掘，一次学习更像人类行为；第二种是解释学习，是人们在解决问题的过程中挖掘到了新的知识，达到学习的目的，是问题驱动的。上述描述给我们一个“学习”的框架，让我们更好的理解目前纷繁复杂的各种学习算法。

最近邻算法的理解：通俗的讲就是选择那个与已知选择中最近的那个选择作为答案，就是最靠近自己的那个选择作为答案，我猜也是最近邻这个提法的由来。比如，我们对一个未知的物种进行分类，如果它有翅膀、有羽毛，我们就基本会把它归到鸟类下面，而不是归为爬行动物或者其他。最近邻算法的实现思路非常简单，主要分为三步：一是获取所需的特征，二是选取特征与特征库中的数据进行比较（数据集），三是进行判断得出结论，与把大象放到冰箱中分三步的意思差不多。步骤明确了，接下来最核心的是最近的判定标准，以什么作为判定最近的依据呢？最直接想到的就是距离，常见的是欧式距离，另外就是向量空间中的向量夹角。所以最近邻问题可以被建模为求特征向量的距离或夹角的极小值。了解了问题的模型，实现就非常简单了，就是求未知量与已知特征之间的欧式距离或者向量的夹角找到最近的那个。从上述过程中我们能够体会，使用最近邻的方法有两个前提，一是特征是已知的，二是有一个既有的特征库可以参考。最近邻方法的应用其实非常广泛，不只是在人工智能算法领域，比如法律、商学中的案例，医生诊断时参考的典型病例就类似这个思想。还有一些典型案例的最近邻“学习”的应用包括：网络文章的分类：首先找到典型的文章，以文章中关键词出现的次数（频率）建立特征库，然后对文章进行分类。

在使用最近邻方法的时候也要注意几个问题：一是样本空间的数据处理的问题当数据分布不规范，在某一维过于聚集，这种情况可以用正规化的方法得到更科学分布的数据，方法是除以方差；二是当数据与问题相互独立时，使用最近邻方法是无效的。

展开阅读全文

页面更新：2024-03-18

标签：近邻人工智能算法机器夹角向量脉络特征典型概念距离人类方法知识数据文章

1 2 3 4 5

人工智能之-理解机器学习概念和最通用算法：最近邻算法

紧紧黏在肠子里的寄生虫

致我们逝去的青春 90后的我们

算法数学基础-随机变量及其分布是什么？

人工智能之神经网络没那么神秘，一文看懂

凉山甘洛警方查处一起非法制造、持有枪支案

云南湖底惊现神秘水下古城

黑竹沟：中国版的“百慕大”，为什么经常有人失踪？

欠爸爸妈妈太多了

算法数学基础-概率论的超重要的基本概念

人工智能之快速理解遗传算法

算法数学基础-概率论最重要的公式：条件概率、全概公式、贝叶斯

道不同，不相为谋

人工智能之教授给出关于AI研究工作的建议

枝繁叶茂，带你们回顾爱情隧道

人工智能应了解的数学概念之“正则化”

算法数学基础-随机变量及其分布是什么？

人工智能之神经网络没那么神秘，一文看懂

算法数学基础-概率论的超重要的基本概念

人工智能之快速理解遗传算法

算法数学基础-概率论最重要的公式：条件概率、全概公式

人工智能之教授给出关于AI研究工作的建议

人工智能应了解的数学概念之“正则化”

算法数学基础-应该了解的多维随机变量及其分布

算法数学基础-告诉你假设检验的概念和方法

算法数学基础-最常见的连续型随机变量分布