移动人工智能计算NPU如何赋能智能终端？

99ANYc3cd6 人工智能 2025-12-07 9

什么是 NPU？—— 它是什么？

NPU 是一种专门为高效处理人工智能任务，特别是神经网络计算而设计的硬件加速器。

（图片来源网络，侵删）

您可以把它想象成：

CPU (中央处理器)：是“全能选手”，负责处理各种通用任务，但做复杂的数学计算（比如神经网络中的大量乘加运算）时效率不高。
GPU (图形处理器)：是“并行计算专家”，拥有成千上万个核心，非常适合同时处理大量数据（如渲染游戏画面），虽然也能用来跑AI模型,但并非为其专门优化。
NPU (神经网络处理单元)：是“AI专项运动员”，它的架构和指令集都经过深度优化，专门为了执行神经网络中的矩阵运算而生，就像一个“数学计算器”，在处理AI任务时速度最快、功耗最低。

在NPU出现之前，移动设备上的AI任务主要依赖CPU或GPU来完成,这带来了几个关键问题：

NPU的出现就是为了解决这些问题：

NPU的核心优势在于其架构。

（图片来源网络，侵删）

传统CPU/GPU：采用的是冯·诺依曼架构，计算和内存是分开的，数据需要从内存中取出，送到运算单元处理，然后再送回内存，这个过程需要不断地搬运数据，耗时耗能（被称为“内存墙”）。
NPU：采用的是数据流架构 或 脉动阵列。
- 想象一个工厂流水线：NPU内部有大量的计算单元，它们之间直接连接，数据像流水一样在各个计算单元之间流动、处理,而不需要频繁地与外部内存交互。
- 矩阵运算的利器：神经网络的核心是大量的矩阵乘法和加法运算，脉动阵列这种架构天生就适合这种重复性高、并行性强的计算模式,可以实现极高的计算效率。

您可能没有意识到，但很多手机上的“黑科技”背后都有NPU的强力支撑：

计算摄影：
- 实时背景虚化：通过AI算法精确识别人像和背景,实现单摄也能拍出类似单反的虚化效果。
- 夜景模式：通过多帧合成和AI降噪，在暗光下拍出明亮、清晰、低噪点的照片。
- AI HDR：智能优化画面的高光和阴影细节,让照片更自然。
- 视频防抖：利用AI算法预测和补偿手部抖动,拍出更稳定流畅的视频。
人脸识别与解锁：快速、安全地识别人脸特征,完成解锁和支付。
智能语音助手：如Siri、小爱同学、小布等，NPU负责在本地实时处理你的语音指令，实现“离线唤醒”和快速响应，无需将语音数据上传到云端,保护隐私且更省电。
（图片来源网络，侵删）
实时翻译：在相机或输入法中，实现语音、文字、图片的实时互译。
AI视频增强：在线观看视频时，NPU可以实时提升视频分辨率、修复老旧电影的画质、优化色彩。
大型本地AI模型：这是最新的趋势，NPU的强大算力使得在手机上运行轻量级的大语言模型成为可能，实现端侧AI。
- 本地AI聊天机器人,无需联网即可使用。
- 基于手机相册的AI总结和搜索。
- 实时代码生成和解释。

各大厂商都有自己的NPU技术,并赋予了不同的品牌名称：

厂商	NPU 架构/系列	代表芯片	特点
华为	达芬奇架构	麒麟9000S、麒麟9000	行业先行者，NPU与CPU、GPU等通过麒麟芯协同，性能和能效比极高。
苹果	神经网络引擎	A17 Pro、M系列芯片	深度集成于SoC中，与iOS系统无缝配合，在隐私保护和性能上表现出色。
高通	Hexagon DSP	骁龙8 Gen 3	利用其Hexagon数字信号处理器作为AI引擎，不断迭代，性能强大。
联发科	APU (AI Processing Unit)	天玑9300	强调“大核+小核”的异构设计，在AI性能和能效上持续进步。
三星	NPU	骁龙8 Gen 3 for Galaxy	与高通合作，集成其Hexagon NPU。

衡量NPU性能的关键指标是算力，单位是 TOPS (Trillion Operations Per Second)。 苹果A17 Pro的NPU算力约为35 TOPS，而一些旗舰芯片的NPU算力已超过40 TOPS。

现代手机SoC（System on a Chip，片上系统）是一个异构计算平台，NPU、CPU、GPU等各司其职,协同工作：

任务调度：操作系统或AI框架（如Android的NNAPI）会根据任务的类型和需求,将AI计算任务分配给最合适的处理器。
NPU上场：对于实时、低延迟、高能效的AI任务（如拍照、语音唤醒），系统会优先将其交给NPU处理。
GPU/CPU辅助：对于一些不那么紧急或需要高精度的AI任务，或者NPU无法处理的复杂任务，可能会交给GPU（利用其并行计算能力）或CPU（处理通用逻辑）。
结果返回：计算完成后，结果返回给应用程序,呈现给用户。