机器学习是什么意思?

什么是机器学习,机器学习的概要介绍。




机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。

学习是人类具有的一种重要智能行为,但究竟什么是机器学习,长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有其不同的看法。

那么机器学习到底是什么?

直白来说,机器学习就是运用集成运算单元根据人类大脑的学习方式,进行模拟学习的一类学科。举个简单的例子,假设今天周一,机器人‘小明’要去上学,下雨了就没法去学校了,那么我们需要让小明知道如果下雨,那么不去上学;如果天晴,那么就去上学。这事给小明一个训练集(类似于练习题,做一次,错了就给正确答案了,对了更好),经过我们人类事先给好习题和答案,小明能够知道下面这个逻辑:

此时学校规定,除非雨大到水位250px才可以不来上学。这时小明又要开始判断了。

当雨水不足以阻挡小明去上学,那么问题又来了?小明是该打车去还是坐公交去呢?假如第一标准是八点之前必须到学校,第二标准是尽量不要淋雨,第三标准是花的钱要少。假设三个标准的权重分别是0.5,0.3,0.2 。此时小明要对已经比较复杂的状况进行选择了。

如果小明考虑小明怎么走路才能更有效率,在中途打车时怎么跟司机交流呢?司机不可能只说一句话吧。如果小明能应对司机所说的每句话,假设司机一般只说3类话(上车,去哪,多少钱)。每一类话的表达方式有很多种吧(‘来,上车’、‘小伙子快上来外面有雨’),假设每类话有30种可能,那光跟司机交流的可能话语就有30的3次方中可能,也就是说需要2.7万个谈话练习题(样本)就能保证小明能跟司机完成最基本的交流。

在不断的扩充练习题(训练样本)进行训练学习,机器人“小明”会越来越聪明,这就是机器学习。




机器学习为开发高性能软件提供了新的方法。在传统的软件开发过程中,我们与用户交谈,规划用户需求,然后根据需求,设计、实施和测试满足这些需求的算法。通过机器学习,我们仍会制定软件系统的整体目标,但我们自己并不设计算法,而是收集训练案例(通常是通过人工标注数据点),然后应用机器学习算法来自动学习所需的功能。

这些由新方法开发出的软件,可以为我们解决传统软件工程方法所解决不了的许多问题。具体来说,从前的视觉对象检测和识别、语音识别和语言翻译方法的性能达不到可用水平。但是随着机器学习最近的进步,我们现在拥有了可以执行这些任务的系统,其准确性(或多或少)可与人类的表现相媲美。

因此,机器学习这一关键技术使许多应用成为现实,比如自动驾驶汽车、实时驾驶指引、跨语言用户界面及支持语音的用户界面等。机器学习对于网页搜索引擎、推荐系统和个性化广告也很有价值。许多人预测机器学习方法将导致一场医学革命,特别是在医学图像的自动收集和分析领域。机器学习在现代公司的运营方面也是一种前景良好的工具,例如它可以帮助预测客户需求并优化供应链。

它也是训练机器人执行灵活制造任务的关键技术。




就在写这篇回答的同时,央视财经频道播出了一个关于机器学习的新闻:亚马逊的线下无人超市Amazon Go在西雅图开业了,新闻报道中着重描述了亚马逊采用了机器学习技术解决了众多问题,在经过近5年的准备时间后,于当地时间1月22日正式开业了。

作为我的研究方向之一,就这个问题一定要跟头条的读者分享一下我对机器学习的理解,如果仅仅描述什么是机器学习就未免有点单薄了,我将把机器学习概念作为问题的入口,进而聊一聊关于机器学习的算法以及其简单的分析(内容实在太多)。

机器学习的概念

机器学习(Machine Learning)是最近几年的热词,随着很多基于机器学习的产品陆续推出,这个作为人工智能重要组成部分的技术得到了越来越多的重视。

在描述机器学习的概念之前,要先描述一下什么是人工智能。人工智能(artificial intelligence)包含了太多的子领域,以至于很难对这个概念确定一个标准的定义,但是经过半个多世纪的发展,人工智能(这个词发明于1956年)的组成部分大致形成了共识,那就是以下6个领域:

  1. 自然语言处理(natural language processing)

  2. 知识表示(knowledge representation)

  3. 自动推理(automated reasoning)

  4. 机器学习(machine learning)

  5. 计算机视觉(computer vision)

  6. 机器人学(robotics)

今天我不打算描述其他领域的问题(实际上是无法用一篇文章涵盖如此多的内容,以后陆续跟大家分享),但就机器学习进行描述。

作为人工智能的标志性人物的Stuart J.Russell和Peter Norvig给出了一个简单的定义:机器学习以适应新情况同时检测和预测的一种模式。这个定义看起来也不是很好理解,于是Peter harrington给出了一个简单的描述:机器学习就是把无序的数据转换成有用的信息。这句话看起来就好理解多了,当然这是处于一种实用角度的高度概括性描述。

说到机器学习这个概念,作为资深的头条读者,一定会问一个问题:这个概念是谁发明的?(头条读者就是喜欢刨根问底)不好意思,我真是一顿查,没查出来(看到这里大家可能略有失望)。不过作为一名敢在头条上回答问题的“小编”,自然要解决这个核心问题,终于功夫不负有心人,在图灵(这是个牛人,关于他(还是她)的故事比人工智能可精彩多了,有时间再跟大家分享)的一篇论文中,提出了建造会学习的机器,然后教育它们,天啊!“学习的机器”、“教育它们”,我觉得我找到答案了。

实践机器学习

要把一个机器学习从概念转换到实践中是个不小的挑战,这个挑战让科学界足足走了40年(有的至今仍然无法解决)。让人绝望的不是未知,而是明明已经看到结果了,但是就是走不过去。机器学习就经历了这个一个漫长的过程,当然现在依然在这个漫长的过程里,只不过机器学习已经在很多领域有了具体的应用,很多科研人员已经不再一味的要求为整个世界建模了,而从解决某个具体的行业问题入手。

那么开发一个机器学习的应用程序需要哪些步骤呢?大概需要以下6个步骤:

  1. 数据收集阶段

  2. 输入数据

  3. 分析输入数据

  4. 训练算法

  5. 测试算法

  6. 使用算法

这里面又提到了算法的概念,是的!机器学习中最重要的就是算法!所以很多本科阶段的学生问我:如果我将来向从事AI方向,应该做哪些准备?我会说:学好数学,尤其是高等数学、线性代数、概率论以及离散数学。

以上的步骤并不是使用于所有的算法,比如k-近邻算法就不用做训练算法的步骤,但是大部分的机器学习把训练算法和测试算法作为最重要的步骤,训练算法是学习的一个重要体现。

机器学习中的重要算法

下面简单分析一下目前应用在机器学习中的主流算法,这些算法并不难于理解,只要有一定的数学基础,再加上一段时间的钻研,完全可以掌握。

  1. k-近邻算法,主要用于分类,采用测量不同特征值之间的距离进而判断目标类型。主要基于欧氏距离公式来计算向量点之间的距离。

  2. 决策树算法,决策树算法的核心就是如何构建出决策树,一旦树构建出来了,结果自然就一目了然。构造决策树涉及到信息增量这个概念,这个概念的理解比理解机器学习本身都难(冯-诺依曼说这个词大家都不知道它是什么意思),这个概念还涉及到一个牛人:克劳德-香农,这个人被认为是二十世纪最聪明的人之一。

  3. 朴素贝叶斯,基于概率论的分类方法。特点是在数据较少的情况下依然有效,可以处理多类别问题。

  4. Logistic回归,一种最优化算法分析,主要思想是根据现有数据对分类边界线建立回归公式,以此进行分类。

  5. 支持向量机,很多人认为SVM(支持向量机)是最好的现成的分类器,这里面应用比较多的是序列最小化算法。

  6. Apriori算法,涉及到关联分析和关联规则学习,这里面有一个著名的例子:尿布与啤酒。

  7. 其它算法包括PageRank(Google作为主推者)、EM(最大期望算法)、AdaBoost算法等等也是比较常见的,就不一 一分析了。

实现算法的语言建议使用Python,Python语言中的numpy库和matplotlib库提供了强大的支持,目前大多数做机器学习的实现都采用了Python。当然,使用java也可以,我最初就是使用java,后来改用Python的。

写到这里,我突然发现需要表述的内容真的是太多了,在机器学习领域也有太多的牛人和在他们身上发生的有趣的故事(有时间会跟头条的读者分享几个,恩!一定从图灵开始),关注我吧,一起交流机器学习,一起交流人工智能!我会在头条上陆续分析各个算法以及如何使用Python进行程序实现,加入我吧!




在开始学习机器学习之前,先对”人工智能“、”机器学习“、”深度学习“三者的区别做个简单了解。

人工智能:artificial intelligence,简称AI.指在计算机科学的基础上,综合数学、信息论、心理学等知识,制造能模拟人类智能行为的计算机系统的学科。

机器学习:机器学习是通过数据或以往的经验自动改进计算机算法的研究。

深度学习:深度学习是机器学习的分支,是一种使用多重非线性变换构成的多个处理层对数据进行高层抽象算法。




通俗易懂的讲:机器学习就是利用数学的方法,去分析大量的数据分布,找到一种函数(模型)可以尽可能准确的模拟数据的前因后果。模型一但确定,新的数据产生后,就可以使用模型去预测想要的结果了。




1. 什么是机器学习?


机器通过分析大量数据来进行学习。比如说,不需要通过编程来识别猫或人脸,它们可以通过使用图片来进行训练,从而归纳和识别特定的目标。


2. 机器学习和人工智能的关系


机器学习是一种重在寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习是人工智能领域的一部分,并且和知识发现与数据挖掘有所交集。



3. 机器学习的工作方式


①选择数据:将你的数据分成三组:训练数据、验证数据和测试数据

②模型数据:使用训练数据来构建使用相关特征的模型

③验证模型:使用你的验证数据接入你的模型

④测试模型:使用你的测试数据检查被验证的模型的表现

⑤使用模型:使用完全训练好的模型在新数据上做预测

⑥调优模型:使用更多数据、不同的特征或调整过的参数来提升算法的性能表现




4. 机器学习所处的位置


①传统编程:软件工程师编写程序来解决问题。首先存在一些数据→为了解决一个问题,软件工程师编写一个流程来告诉机器应该怎样做→计算机遵照这一流程执行,然后得出结果

②统计学:分析师比较变量之间的关系

③机器学习:数据科学家使用训练数据集来教计算机应该怎么做,然后系统执行该任务。首先存在大数据→机器会学习使用训练数据集来进行分类,调节特定的算法来实现目标分类→该计算机可学习识别数据中的关系、趋势和模式

④智能应用:智能应用使用人工智能所得到的结果,如图是一个精准农业的应用案例示意,该应用基于无人机所收集到的数据




5. 机器学习的实际应用


机器学习有很多应用场景,这里给出了一些示例,你会怎么使用它?


  • 快速三维地图测绘和建模:要建造一架铁路桥,PwC 的数据科学家和领域专家将机器学习应用到了无人机收集到的数据上。这种组合实现了工作成功中的精准监控和快速反馈。
  • 增强分析以降低风险:为了检测内部交易,PwC 将机器学习和其它分析技术结合了起来,从而开发了更为全面的用户概况,并且获得了对复杂可疑行为的更深度了解。
  • 预测表现最佳的目标:PwC 使用机器学习和其它分析方法来评估 Melbourne Cup 赛场上不同赛马的潜力。




机器学习本质上是一组利用神经网络的技术。我们为神经网络提供大量的数据,并通过所谓的“训练算法”建立数据的模式,从而建立结构和意识。

在机器学习大范围里,有特定的领域,如深度学习、有监督学习等领域。监督学习是用有标签的数据训练机器,机器一直在做尝试,比如一个参考模型说:“是的,你说得对,没错,那是一只猫,那不是狗;那是一扇门,那不是桌子。”所有这些技术、监督学习、无监督学习、机器自我纠正等都已经取得了进展。

而神经网络主要有两种:卷积神经网络和递归神经网络,这两种擅长的点差别没有特别大。由于这些技术,现在也就更容易分类。分类通常应用于图像识别,面部识别以及可以对图案进行分类和组织的事上面。现在已经将类似的技术应用于自然语言处理,可以在其中处理数据块并从中解读和学习。

机器学习在过去五年取得了非常大的进展,硅片级的计算能力根本不是过去的计算能力可以相比拟的,这就给机器学习取得了巨大的进展奠定了基础,现在每天人们可以往云端添加数十亿的图片,和语音助手语音设备各种交流,同时也在训练这些语音设备,大量的数据的产生让机器学习的算法开始真正可以发挥作用,当然算法的进展也是机器学习能够走到今天得奖一个重要原因。

了解更多硅谷前沿深度讯息请看 硅发布 微信公众号。




人话:机器学习,就是让计算机像人一样的,能够通过大量的数据的训练,能够掌握事物的规律,从而对未知的情况进行判断。




机器学习常被划分为人工智能的细分领域,但这种划分很容易误导别人。关于机器学习的研究确实是基于人工智能的发展有了爆发式增长,但从数据科学的角度,我们更倾向于把机器学习视作数据建模。

从根本上讲,机器学习就是运用数学模型来帮助我们理解数据。我们为这些模型提供相应的参数来适应给到的数据,这便是“学习”。当这些模型能适应给到的数据,它们便可以预测和理解新的给到的数据。至于这种基于模型的数学“学习”有多大程度上类似于人的大脑展示的学习过程,这个另外一个话题。

理解机器学习中要解决的问题和方法对于机器学习的高效运营至关重要,常用的问题解决方法有以下几种:

机器学习类型

更多关于机器学习和数据科学的内容,可关注“数据科学与商业实践”,或私信我了解更多学习资源或建议。

展开阅读全文

页面更新:2024-03-20

标签:机器   神经网络   人工智能   算法   这个概念   深度   模型   步骤   司机   领域   简单   计算机   方法   数据   技术   科技

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top