3分钟看懂人工智能与计算机视觉！为什么说机器无法替代人类？

计算机视觉是最强大和引人注目的AI人工智能技术之一，你肯定已经在不知不觉中以各种方式体验过它。但是，计算机视觉究竟是什么？它是如何工作的？为什么它如此出色？

什么是计算机视觉？

计算机视觉是计算机科学领域，其重点是复制人类视觉系统复杂性的一部分，并使计算机能够以与人类相同的方式识别和处理图像和视频中的对象。截止目前，计算机视觉的能力尚未被全部挖掘出来。

得益于人工智能的进步以及深度学习和神经网络的创新，该领域近年来取得了质变的飞跃，并在与检测和标记物体有关的某些任务中超过了人类。计算机视觉增长背后的驱动因素之一是我们今天生成的数据量，这些数据随后被用来训练和改善计算机视觉。

伴随着大量的可视数据（每天在线共享30亿张图像），现在可以访问分析数据所需的计算能力。随着计算机视觉领域的发展，随着新硬件和算法的发展，物体识别的准确率也随之提高。在不到十年的时间里，当今的AI系统已经从50％的精度达到了99％的精度，使它们在对视觉输入做出快速反应时比人类更准确。

计算机视觉的早期实验始于1950年代，到1970年代首次投入商业使用以区分打字文本和手写文本，如今计算机视觉的应用呈指数增长。到2022年，计算机视觉和硬件市场预计将达到486亿美元。

计算机视觉如何工作？

神经科学和机器学习中的主要开放问题之一是：我们的大脑究竟如何工作，如何用我们自己的算法对其进行近似模拟？现实情况是，关于大脑计算的工作理论和综合理论很少。因此，尽管事实上神经网络应该“模仿大脑的运作方式”，但没人能确定这是否真的成立。

同样的悖论在计算机视觉中也适用。由于我们尚未决定大脑和眼睛如何处理图像，因此很难说生产中使用的算法对我们内部的心理过程的近似程度如何。

在某种程度上，计算机视觉与模式识别有关。因此，训练计算机如何理解视觉数据的一种方法是，将成千上万的图像，已标记的图像馈送给计算机，然后使它们经受各种允许计算机追踪的软件技术或算法。

例如，如果你向计算机喂入一百万张猫的图像，它将使它们全部受算法影响，从而使它们能够分析照片中的颜色，形状，形状之间的距离，物体彼此相邻的位置等等，以便它可以识别“猫”的含义。完成后，从理论上讲，如果计算机提供其他未标记的图像以查找属于猫的图像，则计算机将能够利用其经验识别出猫。

计算机视觉的演变

在深度学习出现之前，计算机视觉可以执行的任务非常有限，并且需要开发人员和人工操作人员进行大量的人工编码和工作。

例如，如果要执行人脸识别，则必须执行以下步骤：

创建数据库：你必须以特定格式捕获要跟踪的所有主题的单个图像。

为图像添加注释：对于每个单独的图像，你都必须输入几个关键数据点，例如眼睛之间的距离，鼻梁的宽度，上唇与鼻子之间的距离以及数十种定义独特特征的其他测量值每个人。

捕获新图像：接下来，你必须捕获新图像，无论是照片还是视频内容。然后，你必须再次执行测量过程，在图像上标记关键点。你还必须考虑拍摄图像的角度。

经过所有这些手动工作，应用程序最终将能够将新图像中的测量结果与数据库中存储的测量结果进行比较，并告诉你它是否与所跟踪的任何配置文件相对应。实际上，涉及到的自动化很少，大部分工作都是手动完成的。而且误差幅度仍然很大。

机器学习提供了解决计算机视觉问题的另一种方法。通过机器学习，开发人员不再需要将每个规则手动编码到他们的视觉应用程序中。相反，他们编写了“功能”，这些较小的应用程序可以检测图像中的特定图案。然后，他们使用统计学习算法（例如线性回归，逻辑回归，决策树或支持向量机（SVM））来检测模式，对图像进行分类并检测其中的对象。

机器学习帮助解决了许多传统软件开发工具和方法历来具有挑战性的问题。例如，几年前，机器学习工程师能够创建一种软件，该软件可以比人类专家更好地预测乳腺癌。但是，构建软件的功能需要数十名工程师和乳腺癌专家的努力，并且花费了大量的时间进行开发。

关于深度学习

深度学习为进行机器学习提供了完全不同的方法。深度学习依赖于神经网络，神经网络是一种通用功能，可以解决通过示例表示的任何问题。当你为神经网络提供许多标记有特定类型数据的示例时，它将能够提取这些示例之间的通用模式并将其转换为数学方程式，从而有助于对将来的信息进行分类。

例如，使用深度学习创建面部识别应用程序只需要开发或选择一种预先构建的算法，并使用必须检测的人脸示例进行训练。给定足够的示例（大量示例），神经网络将能够在无需进一步说明特征或测量的情况下检测面部。

深度学习是进行计算机视觉的一种非常有效的方法。在大多数情况下，创建良好的深度学习算法归结为收集大量带标签的训练数据并调整参数，例如神经网络和训练时期的类型和层数。与以前的机器学习类型相比，深度学习的开发和部署既简单又快速。

当前大多数计算机视觉应用程序（例如癌症检测，自动驾驶汽车和人脸识别）都利用深度学习。由于可用性以及硬件和云计算资源的进步，深度学习和深度神经网络已从概念领域转变为实际应用。

解密图像需要多长时间

总之不多。这就是为什么计算机视觉如此令人兴奋的关键：在过去，即使是超级计算机也可能需要数天，数周甚至数月的时间才能完成所有所需的计算，而如今的超高速芯片和相关硬件以及快速，可靠的互联网和云网络，使过程闪电般快速。曾经至关重要的因素是，许多从事AI研究的大公司是否愿意共享他们的工作，例如FB，Google，IBM和Microsoft，特别是通过开源一些他们的机器学习工作。

这样一来，其他人就可以继续工作，而不是从头开始。因此AI行业不断发展，不久前的实验需要花费数周的时间才能完成，而今天的实验可能需要15分钟。对于计算机视觉的许多实际应用，此过程都在几微秒内连续发生，因此当今的计算机能够成为科学家所谓的“情境感知”。

计算机视觉的应用

计算机视觉是机器学习的领域之一，核心概念已被集成到我们每天使用的产品中。

无人驾驶汽车

利用机器学习技术开发图像应用的不仅仅是科技公司。计算机视觉使无人驾驶汽车能够感知周围环境。摄像机从汽车周围的不同角度捕获视频，并将其提供给计算机视觉软件，然后该软件会实时处理图像以查找道路的末端，读取交通标志，检测其他汽车，物体和行人。然后，自动驾驶汽车可以在街道和高速公路上驾驶，避免撞到障碍物，并（希望）安全地将其乘客送至目的地。

人脸识别

计算机视觉在面部识别应用程序中也起着重要作用，该技术使计算机能够将人脸的图像与他们的身份进行匹配。计算机视觉算法检测图像中的面部特征并将其与面部轮廓数据库进行比较。消费类设备使用面部识别来验证其所有者的身份。社交媒体应用使用面部识别来检测和标记用户。执法机构还依靠面部识别技术来识别视频源中的罪犯。

AR/VR增强现实和混合现实

计算机视觉在AR/VR（增强和混合现实）中也起着重要作用，该技术使智能手机、平板电脑和智能眼镜等计算设备，能够将虚拟对象叠加并嵌入到现实世界的图像中。利用计算机视觉，AR设备可以检测现实世界中的物体，从而确定设备显示屏上放置虚拟物体的位置。例如，计算机视觉算法可以帮助AR应用程序检测诸如桌面，墙壁和地板之类的平面，这是确定深度和尺寸并将虚拟对象放置在物理世界中的重要组成部分。

医疗卫生行业

计算机视觉也是健康技术进步的重要组成部分。计算机视觉算法可以帮助自动化任务，例如检测皮肤图像中的癌痣或在X射线和MRI扫描中发现症状。

安防视频监控

继图片之后，视频结构化也成为了深度学习领域的热点。相比图片，视频内容无疑具有更大的复杂性。视频结构化描述技术能够将监控视频转化为人和机器可理解的信息。当前视频结构化技术已经应用到安防视频监控中。

例如，TSINGSEE青犀视频的EasyCVR智能视频分析安防监控平台，基于AI人工智能与大数据分析，可以实现对视频中的信息进行人脸识别、目标检测、车牌识别、车型分析等，广泛应用在智慧交通、智慧城市、智慧安防等场景中。

计算机视觉的挑战

帮助计算机查看信息非常困难。发明一台看起来像我们一样的机器是一项看似困难的任务，这不仅是因为很难使计算机做到这一点，而且还因为我们不能完全确定人类视觉的工作原理。

研究生物视觉需要理解诸如眼睛的感知器官，以及对大脑内部感知的解释。在绘制流程图和发现系统使用的技巧和捷径方面都取得了很大进展，尽管与涉及大脑的任何研究一样，还有很长的路要走。

计算机视觉常见的专业名词

许多流行的计算机视觉应用程序都涉及尝试识别照片中的事物。例如：

物体分类：这张照片中物体的大致类别是什么？
物体识别：照片中给定物体的类型是什么？
物体验证：照片中是否有物体？
物体检测：照片中的物体在哪里？
对象地标检测：照片中对象的关键点是什么？
对象分割：图像中的对象属于哪些像素？
物体识别：这张照片中有哪些物体，它们在哪里？
除了客观的认识之外，其他分析方法还包括：
视频运动分析使用计算机视觉来估计视频中物体或摄像机本身的速度。
在图像分割中，算法将图像划分为多组视图。
场景重建可创建通过图像或视频输入的场景的3D模型。
在图像还原中，使用基于机器学习的滤镜从照片中消除了诸如模糊之类的噪点。

结论

尽管最近取得了令人印象深刻的进步，但我们甚至还没有解决计算机视觉问题。但是，已经有多家机构和AI公司找到了将由神经网络驱动的C计算机视觉系统应用于解决实际问题的方法。而且，AI人工智能下的机器学习与深度学习已经成为了趋势。

从应用前景看，基于计算机视觉的视频监控技术所面临的巨大市场潜力为视频结构化技术提供了广阔的应用前景。

（本文由“TSINGSEE青犀视频”原创，欢迎关注）

展开阅读全文

页面更新：2024-03-12

标签：视觉机器计算机神经网络人工智能示例片中物体面部算法应用程序深度图像对象人类工作科技视频

1 2 3 4 5

3分钟看懂人工智能与计算机视觉！为什么说机器无法替代人类？

什么是计算机视觉？

计算机视觉如何工作？

计算机视觉的演变

关于深度学习

解密图像需要多长时间

计算机视觉的应用

计算机视觉的挑战

计算机视觉常见的专业名词

结论

为什么越来越多的科技公司都选择了WebRTC技术？

2021新基建时代，一半以上的传统建筑企业将淘汰

深度学习简易入门：初学者必看的5个计算机视觉开源项目

5G速度比4G快10倍！视频流将发生什么变化？

货拉拉女孩跳车身亡引人深思，货车视频监控是否应该强制安装？

为什么视频监控需要AI来代替人工？5大原因剖析

WebRTC开源10年，这项技术是怎样改变世界的？

人工智能如何拥有人类的视觉“看”视频？

AI从入门到精通：20种用于计算机视觉的开源图像数据集

2021年这6大技术将成为趋势，留给厂商的时间不多了

周末了，给大家表演个不用菜板做菜

43°C，我就问你热不热

分享两个网站，再也不怕老人走丢了

遇到个停车高手

vivo手机制作动图方法

为什么越来越多的科技公司都选择了WebRTC技术？

深度学习简易入门：初学者必看的5个计算机视觉开源项目

5G速度比4G快10倍！视频流将发生什么变化？

货拉拉女孩跳车身亡引人深思，货车视频监控是否应该强制

为什么视频监控需要AI来代替人工？5大原因剖析

人工智能如何拥有人类的视觉“看”视频？

AI从入门到精通：20种用于计算机视觉的开源图像数据集

为什么停车场一定要安装视频监控？

研究报告：2021年的人工智能发展趋势预测

AI安防视频监控大屏数据可视化，如何应用在智慧城市中？