
这几年很多厂家营销 AI PC、AI 手机的概念,对于很多消费者来说,很可能 AI 的功能还没体验到,价格先涨上去了。
确实,如果只是调用云端 AI,那确实没有发生什么质变。但如果能够本地运行 AI 的话,那将是个人电脑(PC)体系架构的一次根本性范式转移。

本地 AI 绝不是简单地增加一个功能,而是对过去三十年 PC 设计的底层逻辑发起了挑战。
让我们必须先回到过去,看看传统的 PC 架构,为何已经无法适应 AI 时代的需求?
我们今天所熟知的 PC 架构,其实一直沿用着在上世纪 90 年代末的基础。当时,为了应对 3D 图形处理需求,电脑行业做出了一个关键决策:
将图形处理单元(GPU)独立出来,并为其配备专用的高速显存(VRAM)。CPU 则继续使用自己的系统内存(RAM)。
这种 CPU + 独立 GPU,系统内存 + 显存的架构,在当时是解决总线带宽瓶颈的有效方案。它让图形处理能力得到了飞速发展,支撑了整个游戏和专业图形行业。但这种设计也埋下了隐患。
AMD 的副总裁兼首席技术官 Joe Macri 这样形容:
当 CPU 和 GPU 需要协同工作时,数据必须经历一个漫长而低效的旅程——从系统内存中取出,通过 PCI-E 总线缓慢地传输到显存,GPU 处理完后,再把结果传回系统内存。
这个过程不仅增加了延迟,还消耗了大量额外的电力。对于传统的游戏或图形渲染任务,这种代价尚可接受。但对于大语言模型这类新兴的 AI 工作负载,这种架构的缺陷就暴露无遗了。
AI 模型,有两个核心需求:巨大的内存容量和海量的并行计算。
一个模型动辄数十 GB 甚至上百 GB,运行时必须完整加载到内存中。在传统架构下,如果模型需要 CPU 和 GPU 协同处理,数据就要在两个独立的内存池之间来回折腾,这成了巨大的性能瓶颈。
换句话说,PC 行业过去三十年的成功基石,如今恰恰成了通往本地 AI 未来的最大绊脚石。
所谓的「AI PC」,并不是一个简单的产品定义。它建立在三大技术支柱之上,共同构建了下一代个人计算的平台。
第一:NPU(神经网络处理单元)
当下的 AI 计算,很大程度上是矩阵乘法运算。CPU 虽然通用,但做这种并行计算效率极低。GPU 通过其成千上万的流处理器,恰好擅长并行计算,因此在数据中心成为了 AI 的主力。
但在笔记本电脑这种对功耗和散热极其敏感的设备上,让一块动辄上百瓦的 GPU 持续高负载运行,显然不现实。
NPU 应运而生。它是一种专为 AI 计算(特别是张量运算)设计的芯片,结构上就为这类任务做了深度优化。它的核心优势不是绝对性能,而是能效比。

微软的技术院士 Steven Bathiche 指出,高通骁龙 X 芯片中的 NPU,其算力(TOPS,每秒万亿次操作)远超同代 CPU,但功耗却低得多。
目前,高通、AMD、英特尔等巨头已经掀起了一场 NPU 的「TOPS 军备竞赛」。从最初的 10 TOPS,到现在的 40-50 TOPS,再到未来规划的数百甚至上千 TOPS,算力的增长速度令人惊叹。
但这不仅仅是数字游戏。AMD 的 Ryzen AI 产品管理总监 Rakesh Anigundi 认为,NPU 的低功耗特性至关重要,因为未来的 AI 应用,比如个人助理,会是「始终在线」的,需要长时间运行。如果依赖 GPU,笔记本的电池会迅速耗尽。
因此,NPU 的角色不是要取代 GPU,而是在 CPU 和 GPU 之外,提供一个处理持续性、低强度 AI 任务的高能效选择。
CPU 负责系统调度和数据准备,NPU 处理始终在线的 AI 功能,GPU 则在需要时介入,处理高强度的 AI 推理或生成任务。这是一个更平衡、更高效的异构计算体系。
第二根支柱:统一内存架构(UMA)
统一内存的理念很简单:打破系统内存和显存之间的物理壁垒,让 CPU、GPU、NPU 共享同一个高速内存池。所有处理单元都可以直接访问全部内存数据,无需再通过低效的 PCI-E 总线进行数据拷贝。

这个概念并不新鲜,但真正将其发扬光大并推向主流的是苹果。
自 M 系列芯片问世以来,苹果就凭借其统一内存架构,在视频剪辑、3D 渲染等需要大量数据交换的任务中展现出惊人的能效优势。
对于 AI 任务而言,这种架构更是如鱼得水。一个巨大的 LLM 可以一次性加载到统一内存中,CPU、GPU、NPU 可以根据任务需要,无缝地对模型数据进行操作,极大地提升了效率和响应速度。
现在,Wintel 阵营也终于醒悟。AMD 最新推出的 Ryzen AI 300 系列,就明确采用了统一内存设计,将 CPU、GPU 和 NPU 整合在同一块芯片上,共享高达 128GB 的系统内存。英特尔和英伟达这对昔日的对手也出人意料地宣布合作,未来的芯片架构同样会走向统一内存。
这是 PC 架构二十五年来最根本的一次变革。它意味着,数据流动的瓶颈被彻底打开。当然,这种变革也带来了代价:高度集成化使得 PC 的可升级性和可维修性大幅降低。CPU、GPU、内存被焊死在主板上,一个部件损坏可能意味着整个主板报废。这是为了极致效率而牺牲模块化的必然权衡。
第三根支柱:SoC 集成
将 NPU 和统一内存架构的优势发挥到极致的,是 SoC 的设计思路。即将 CPU、GPU、NPU 以及其他控制单元,全部集成到一块硅片上。
这种做法的好处是显而易见的。
首先,芯片内部的互连速度远高于芯片之间的连接速度,数据交换的延迟更低、带宽更高。其次,将所有计算单元置于一个统一的功耗和散热管理体系下,可以进行更精细的动态调度。
AMD 的高级院士设计工程师 Mahesh Subramony 表示,通过这种方式,系统可以智能地在不同单元之间分配功耗预算,以在轻薄本的形态下实现“迷你工作站”级别的性能。
从分裂的组件到高度集成的 SoC,这标志着 PC 设计理念的成熟。PC 不再是各个独立部件的简单组装,而是一个经过精密设计的整体。
硬件的变革只是故事的一半。没有软件生态的支持,再强大的硬件也只是一堆昂贵的芯片。
微软推出了 Copilot+ PC 计划和 Windows AI Foundry Local 平台,试图为这套新硬件打造操作系统级支持的战略部署。AI Foundry Local 本质上是一个运行时堆栈,它为开发者提供了一个包含数千个开源模型的目录,以及一系列 API。

其核心价值在于,它试图解决 AI 应用开发的两个关键问题:
微软的目标,是让 Windows 成为本地 AI 应用的首选开发和运行平台,从而在这场平台革命中占据主导地位。
那么,这一切有必要吗?云端有更强大的模型,我为什么要在自己的笔记本上折腾?
这个问题需要从几个层面来理解。
首先,本地 AI 与云端 AI 并非取代关系,而是互补关系。云端处理最复杂、最庞大的模型,提供SOTA 级别的能力。而本地 AI 则专注于处理需要低延迟、高隐私和深度个性化的任务。
其次,“足够好”的模型正在快速涌现。我们不需要在笔记本上运行 GPT-4.5。像 Qwen3 8B 等小型语言模型(SLM)的能力已经超出了很多人的预期,它们完全可以在当今的 AI PC 硬件上流畅运行。随着模型效率的不断提升,本地模型的能力边界会持续拓宽。
再者,并非所有计算都适合上云。将海量个人数据持续不断地上传到云端进行处理,不仅有隐私风险,其网络和计算成本长期来看也是一笔巨大的开销。随着本地 AI 硬件的普及,将部分计算负载转移回本地,会是一种更经济、更高效的选择。
AI PC 的意义远不止于运行一个聊天机器人。它的真正潜力在于,通过无处不在的 AI 能力,重塑整个操作系统的交互体验。
搜索不再是关键词匹配,而是语义理解;文件管理不再是手动分类,而是智能组织;内容创作不再是从零开始,而是与 AI 协同完成。这是对个人计算效率的一次系统性提升。
AI PC 不是一次简单的产品升级,而是 PC 行业在 AI 时代的一次架构升级。
这场升级的核心,是对效率的极致追求。在功耗和体积的严格限制下,通过架构层面的革命,压榨出每一瓦特的性能,以满足 AI 时代的算力需求。
对于普通用户而言,短期内可能只会感受到一些零散的 AI 功能。但从更长远的时间维度看,我们正在见证个人电脑这一概念的重新定义。
未来的 PC,将不再仅仅是一个执行指令的工具,而是一个真正理解用户、预测需求、并与用户协同共生的智能伙伴。
更新时间:2025-12-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号