一、“智能摩尔”技术背景概述
自 1965 年戈登·摩尔提出摩尔定律以来, 传统摩尔技术路线开始不断演进,当前基于CMOS 开关的半导体工艺技术遭遇到物理极限的制约,半导体产业已进入后摩尔时代。延续摩尔(More Moore)技术通过不断改进半导体工艺制程,以减小器件沟道宽度的方法来提高单片晶体管集成密度,正逐渐接近 1nm 的量子极限。拓展摩尔(More Than Moore)技术通过在单芯片中堆叠多个 DIE 来提升单个元器件的性能,但也受到功耗和散热的限制。
以深度学习为代表的新一代人工智能技术创造了新的“大数据、大算力、大模型”计算架构,信息计算架构的革新推动了人工智能芯片的诞生,从标量处理器、矢量处理器到张量处理器和多核异构处理器,智能芯片的计算性能以远超摩尔定律的速度高速发展,这种以处理器架构革新来提高芯片算力的技术路线被称为“智能摩尔”技术路线。其核心思想是:半导体芯片虽然在物理层面和信号层面都受到物理规律的制约,看似已接近极限,但在信息层面的技术创新还远没有达到极限。而下一次信息革命的关键在于:通过进一步借鉴人脑智慧机制,发展新型计算架构和新型片上架构, 进一步提升“性能 / 功耗 · 价格”比,在信息处理能力层面实现跨越发展。
二、计算架构和处理器架构之间的相互促进作用
某一领域的科学和技术发展往往受到该行业上下游技术的制约和激励,这种相互对立和统一关系,在一张一弛的节律下,释放出巨大的创造力,从而推动各自领域取得巨大突破。计算架构和处理器架构之间的相互关系也是如此,计算架构的发展推动了处理器架构的变革,处理器架构的变革提升了处理器性能,支持计算架构进一步演进。
1.计算架构的发展推动了处理器架构的变革
处理器架构的变革往往是为了满足计算架构发展的需求,因而受到计算架构革新的推动而进步。CPU 处理器是为了满足人们对于科学计算和信息处理自动化的需求,从最初的 4 位、8 位、16 位定点计算发展到支持更大字长和浮点运算及简单的矢量计算,主要目标是提高信息处理的实时性和计算精度,其应用场景也由科学计算、数据库操作扩展到人们生活的各个方面,成为当前信息时代的基础技术之一。
然而,CPU 是面向定点和浮点标量计算而设计的,在密集型计算场景下无法获得很高的计算效率。这些应用场景需要在极其有限的时间周期内完成大量数据的实时计算,例如通讯基站、视频编解码和游戏等。将计算对象由标量变为矢量,可以使用相同的计算方式批量并行地处理大量数据,从而提高整体效率。矢量化计算架构推动了矢量处理器的诞生,其典型代表是 DSP 和 GPU。DSP 是数字信号处理器的简称,其架构主要特点是采用了超长指令字来实现数据并行计算,采用优化的哈弗结构提高数据存取能力,采用精确的多级流水线来提高指令执行效率。GPU 全称是图像处理器,原为游戏应用而设计,游戏应用中的核心算法有两种:一种是应用于三维建模的顶点渲染计算;另一种是用于纹理贴图的像素渲染计算。同一芯片难以支持不同游戏在2D 和 3D 处理上的设计偏好。2007 年微软提出了统一渲染架构,倡导使用同一种计算硬件支持顶点渲染和像素渲染,这也使得 GPU 具备了支持更灵活基础计算的能力。英伟达公司在这种 GPU 处理器上推出一种称为 CUDA(统一计算架构)的通用并行计算架构,使得 GPU 可以通过编程支持通用计算任务, 当人工智能时代来临,这种支持大规模并行且可灵活编程的计算工具成为推动人工智能发展的主要动力之一。
但是,从架构上讲,GPU 处理器并不是实现深度学习计算的最优解。GPU 处理器在芯片中部署大量的标量计算单元,通过 SIMT(单指令多线程)的方法实现矢量计算,这种方法能灵活支持多种维度的矢量。但在进行张量计算时,需要将张量计算分解成多个矢量算子进行分步计算,其中需要花费大量的额外时间进行数据存取,因而整体效率不高。而以深度学习为代表的新一代人工智能计算的基本算子都是基于张量(矩阵)的,因此神经网络处理器(NPU)应运而生,其中以谷歌的TPU 为典型代表。张量处理器面对的是在张量计算中以几何级数增长的数据带宽需求和芯片设计中总线带宽只能以线性增长的矛盾。主要解决方案有:使用“数据驱动并行计算”技术,让数据“流过”以矩阵方式部署的MAC 单元,“流出”的数据即为计算结果,这种处理器架构以增加数据复用率的方法降低了存取带宽需求,从而提高了整体效率;另一种解决方案是“近存计算”技术,在计算单元附近部署大量的 SRAM 缓存,减少对外部 DDR 存储器的访问,以 Groq 公司的 LPU(语言处理单元)为典型代表。
2.新型处理器支持和推动了算法的实践和进步
处理器计算能力的进步也支持和推动了计算架构的发展。深度学习技术以“大数据、大算力、大模型” 为典型特征,从最开始就离不开算力平台的支持, 同时也是随着算力平台的发展而发展。
早期深度学习以卷积神经网络(CNN)为代表, 在计算机视觉(CV)领域取得了极大地成功,以GPU 处理器为核心的计算服务器是支持 CNN 训练的不可或缺的设备。在嵌入式领域,由于功耗和散热的限制,能效比更高的 NPU 处理器承担了现场设备实时智能处理的任务。
2017 年,Google 提出了基于自注意力机制的Transformer 架构,奠定了大模型基础架构。催生了以 GPT 系列模型为代表的大模型预训练算法架构, 推动了大模型技术快速发展和广泛应用。2020 年,OpenAI 推出了 GPT-3,模型参数规模达到了 1750 亿, 成为当时最大的语言模型。2022 年,ChatGPT 横空出世,基于GPT-3.5 模型,展现了强大的自然语言交互与多场景内容生成能力。GPT-4 于2023 年3 月发布, 模型参数规模达到了 1.8 万亿,支持图像和文本等多模态数据的输入,在各种专业和学术基准上甚至达到人类的水平。GPT 和其他大模型的训练依赖大规模计算集群的支持,“算力”上升成为一种社会资源,其和国家、社会的智能化发展水平息息相关。
三、多模态融合计算和多核异构智能处理器
1.AI 技术在落地应用中面临的主要挑战
随着 AI 技术的迅速发展,其在社会各行业中得到广泛地应用,然而 AI 技术在应用落地实践中还存在以下问题:
(1)AI 算法虽然在部分场景下获得很高的识别精度,但是处理复杂场景的能力仍然远远落后于人类。如何让智能系统具备处理复杂场景的能力,最终实现通用化人工智能(GAI)?
(2)如何克服以深度学习为代表的当代人工智能的局限性,包括:对大数据的依赖性、模型参数的不可解释性和对大算力的依赖性?
目前AI技术在数据、算法和算力等方面还存在理论上和技术上的双重挑战。深度学习算法使用大数据回归技术从大量样本数据中提取特征分布,极度依赖大量样本支持,在小数据、小样本场景下具有明显的局限性,而深度学习算法在完全陌生环境下的反应和决策是无法预测的。传统目标检测算法以人类先验知识和数理模型为基础,已经在实际应用中进行了广泛地应用和验证,在面对未知场景和目标时,仍能具备一定的泛化能力,代表了人类对世界认知的知识成果。“需要将经典的人工智能和深度学习这两种模式进行融合,将知识嵌入深度学习来更好地表达空间、时间和因果关系”。另外,深度神经网络模型参数由训练随机产生,特征向量是数据分布的被动反映,和人类认知维度往往不相一致,无法从物理意义上得到解释,应用上不能满足 5W(why、What、Where、Who、When)认知需求,这种数学上合理性和物理上不可解释性是这种基于大数据统计的人工智能技术的长期困境。此外,深度学习特别是大模型算法需要海量的算力支持,对云端算力的过度依赖将限制人工智能设备的自主化、快决策、快反应的能力,同时也会造成用户的隐私泄露风险。
2.多模态融合计算是应对复杂现实场景有效解决方案
多模融合智能计算通过借鉴人脑分析解决问题时采用的逻辑思维和形象思维融合思考模式,将传统以人类先验知识驱动的数理模型算法、逻辑推理算法和以大数据驱动的深度学习算法进行融合处理, 通过不同架构算法相互补充、相互参照,提高复杂场景下对目标对象的识别、跟踪精度,增强系统的抗干扰、反欺骗能力。
中星微技术承建的“数字感知芯片技术全国重点实验室”针对常用的智能识别和目标跟踪算法特点进行分析和综合,提出信号级融合、过程级融合、特征级融合和决策级融合等多种多模态融合计算方法。通过大量的数据和场景进行仿真和测试,证明多模融合智能计算架构在复杂场景下具有识别精度高、跟踪能力强、抗干扰性好、泛化能力强等优点, 还具备较好的可解释性和继承性。
以计算机视觉处理中的目标跟踪和抓拍任务为例:整体算法包括目标检测神经网络、目标姿态和质量评估网络和目标特征网络等基于深度学习的计算,包括匈牙利算法、卡尔曼滤波算法、ReID 算法和图像后处理算法等基于数理模型的计算方法,包括态势感知计算、目标记忆和找回算法等逻辑推理型计算,这些算法有机结合才能有效地解决目标相互遮蔽、长时间静止等场景下的目标跟踪问题。任何单一模态的算法都无法很好地处理这些现实中的复杂问题。
3.多核异构处理器是支持多模态融合计算高能效比的解决方案
从工程化的角度来看,提高单芯片乃至系统的算力,需要解决的主要问题从来不是在单个晶元或者芯片上配置多少计算单元的问题,这一点在 EDA 工具上没有限制,在工艺制程上也不存在困难。真正制约芯片算力的因素主要有三点:散热、效率和成本。
(1)散热
芯片需要在一定的温度范围内才可以正常运行, 而高性能芯片在工作时往往会产生大量热量,这些热量是由于芯片工作时的静态功耗和动态功耗转化而来,随着芯片规模扩大和芯片的主频增加而快速增加。为了维持芯片工作时的温度,高性能计算芯片必须配备良好的散热装置。然而,由于芯片的片状物理结构限制,其散热面总是有限的,这就决定了芯片的规模只能有限度地增长;另外,随着芯片的运行频率越来越高,发热量也会快速上升,因此也无法通过无限提升主频方法来提升算力。
(2)效率
如果不考虑散热因素,是否可以通过大规模堆砌计算单元来提高总体算力?从理论峰值的数字上来看这是可行的,但是从实际效率来看则不然。芯片系统的实际计算能力并不仅仅和计算单元的数量有关,也受到存储器资源、数据存取效率的制约。一个典型的乘加计算,需要两个输入数据和产生一个输出数据,对数据存取带宽的需求超过了计算本身。在芯片设计中,增加数据带宽的需要在芯片内部署更大位宽的总线,其成本远远高于部署计算单元。因此,在张量计算时,系统的实际算力瓶颈往往在于数据带宽而非计算单元的数量,在设计芯片时盲目地追求极限算力的思路并不科学。
(3)成本
半导体产业化不可能不考虑成本,从理论上来讲,智能芯片的散热限制和效率限制都可以通过技术手段来加以改善,从而提升总体算力,但其成本也非常高。以英伟达 RTX3090 GPU 显卡为例,其整体功耗达 350W,外部散热器的成本占总体成本达1/3;另外一个典型例子是 Groq 的 LPU 处理器,通过大规模集成片内SRAM来减少外部总线带宽压力, 在性能上超过主流 GPU 显卡,而且功耗更低,但其成本估计超过英伟达 GPU 的 30 倍。
芯片的算力问题除了上述制约条件之外,还存在计算架构的支持问题。从算法角度来看,一个典型的 CV 应用中,需要融合使用大模型、CNN 神经网络、公式和模型计算、逻辑推理计算、视音频和图片的编解码计算、加解密计算以及应用业务逻辑计算等。这些计算方法从模态上可分为:标量计算、矢量计算、张量计算、通用计算、专用计算等。见表1。
现有的处理器中,CPU 处理器具有最好的灵活性,可支持以上所有类型的计算,但实际上只适合标量计算,在执行矢量、张量和专用计算时效率极低;DSP 处理器也可支持标量和矢量计算,但是由于性能和同为矢量处理器的 GPU 差距太大,而且编译工具和生态支持较差,仅在少数场合中使用;GPU 处理器一般作为协处理器配合 CPU 使用,矢量计算效率高,张量处理效率低。当前 GPU 的总体算力已经非常大,同时具有编程便利、生态良好等优点,因而在人工智能领域获得广泛地使用;NPU 处理器面向张量计算设计在进行深度神经网络时具有良好的能效比,但它不支持其它类型的计算,因此需要和其他处理器配合使用;专用处理器针对专用的算法标准而设计,一般只能支持预先确定的算法,基本上没有灵活性可言,但其能效比最高。
在智能计算和图像、视频和自然语言处理等领域,无论是云端智能应用还是前端智能应用,都需要多种处理器协同融合处理。因此,在讨论算力问题时,必须同时考虑计算架构和算力架构的问题。在智能应用早期,云端系统一般使用 CPU+GPU 架构,端边系统使用CPU+NPU 架构;2012 年起,英伟达在GPU 中引入了专用的张量处理单元,变成了“矢量+ 张量”的异构架构, 如 A100 显卡,32bit CUDA 算力 19.5T FLOPS 和 Tensor Float32 张量算力 312T FLOPS,和主控 CPU 一起,构成“标量 + 矢量 + 张量”异构计算系统。该系统中张量算力的配置比矢量算力高了一个数量级,原因是深度学习计算需要大量的张量算力的支持。该系统使用“主 - 从”式多芯片架构,其优点是产品组成上非常灵活,单台CPU 服务器可选配多块的 GPU 显卡,但使用这种架构也需付出效率代价,即使在主控 CPU 和 GPU 显卡之间使用了高速的 PCIe 总线实现通讯,他们之间的数据交换也需耗费大量额外时间成本。
特斯拉的 FSD(Full Self-Drive)2.0 芯片,单芯片上集成了 3x 四核 Cortex A72 2.2GHz CPU 提供约 26.4GFLOPS 的标量算力、1 GHz GPU 提供 600 GFLOPS 的矢量算力、2x2GHz NPU 提供约 74 TOPS 的张量算力以及ISP、视频编码等专用计算单元,是一款典型的多核异构处理器芯片。由于芯片内部总线带宽高于外部DDR, 同时将多个计算核心集成于芯片内部可以共享片内高速 SRAM 实现高速数据交换,实际效率高于多颗芯片构成的异构计算系统。高能效比是多核异构处理器的核心优势之一。
中星微技术股份有限公司的多核异构智能芯片,集成了 4 核 1.2GHz 的高性能 RISC-V 标量处理器,提供 4.8GFLOPS 标量算力、1 GHz GPU 提供 2 TFLOPS 的矢量算力、4x1GHz NPU 提供 16 TOPS 的张量算力以及高性能ISP、视频编解码专用计算单元、信息加解密专用视频单元等股票配资门户推荐,同时 XPU 根据多核异构架构特点,设计了事件驱动计算的任务调度器HCP(异构计算池)、全局存储器管理单元(GMMU)、全局信号量管理单元(GSMU)、全局安全监控单元(GSSU)等。XPU从传统的“主 - 从”式计算架构进化为“众核并行计算”架构,提高了异构计算内核的使用效率,同时利用芯片内部的高速总线和共享存储实现高效率地核间数据交换,显著地提高智能计算的效率和能效比。
文章为作者独立观点,不代表在线配资观点