imec 在 3D 堆叠 HBM 与 GPU 架构中的热管理取得新突破
在 2025 年 IEEE 国际电子元件会议(IEDM)上,比利时微电子研究中心(imec)发布了关于 3D 高带宽内存(HBM)与图形处理器(GPU)堆叠结构的首份系统技术协同优化(STCO)热管理研究报告。该研究通过完整热学仿真识别了主要的热瓶颈,并提出了提升该结构散热可行性的策略。
研究指出,在采用与当前 2.5D 技术相当的集成方案后,GPU 在 AI 训练负载下的最高温度可由原本的 140.7°C 降至 70.8°C。这一成果突显了跨层次优化策略(即在不同抽象层级上实现协同控制)与专业技术能力结合所带来的显著优势。
imec 提出,将 HBM 直接堆叠于 GPU 之上,为新一代高性能计算架构提供了具备吸引力的实现方式,尤其适合处理数据密集型的 AI 应用。相较于当前基于硅中介层将 HBM 与 GPU 间隔放置的 2.5D 架构,这种 3D 堆叠方案有望在计算密度(如集成四颗 GPU 的封装)、GPU 内存容量及内存带宽方面实现显著提升。不过,3D 集成方式因局部功耗密度更高以及垂直方向热阻的增加,也带来了更大的散热挑战。
▲ (a) 当前的 2.5D 集成方案与 (b) HBM 与 GPU 的 3D 堆叠架构
根据 imec 的建模,四个 HBM 堆叠被放置在 GPU 之上,每个堆叠包含 12 颗异质集成的 DRAM 芯粒,并通过凸块直接连接。在 HBM 之上设有散热组件,通过参考产业典型功耗曲线来识别局部热区,并与 2.5D 集成方案进行对比分析。在未采用热管理策略的情况下,3D 模型中 GPU 峰值温度达到 141.7°C,远超 HBM 与 GPU 的正常工作温度范围。而在相同散热条件下,2.5D 方案的最高温度控制在 69.1°C,处于可运行区间。
基于这些发现,imec 评估了技术和系统层面的热管理策略对整体温度表现的协同影响。系统层面的措施包括 HBM 堆叠合并与硅基散热结构优化,技术层面则评估了双面冷却和 GPU 频率调降等方案,以进一步改善散热性能。
imec 的 STCO 项目负责人 James Myers 表示,将 GPU 核心频率降低一半,能够有效将峰值温度从 120°C 降至 100°C 以下,进一步优化至 70.8°C,达到系统稳定运行的条件。尽管这一调整导致工作负载增加 28%,使得 AI 训练速度略有下降,但由于 3D 架构提供了更高的计算通量密度,整体封装性能仍优于 2.5D 基线。研究团队正借助这一方法,继续探索其他 GPU/HBM 配置,例如将 GPU 堆叠在 HBM 之上,以预判未来可能遇到的热学限制。
▲ 采用 STCO 策略后的累积热管理成效
imec 逻辑芯片技术研发副总裁 Julien Ryckaert 表示,这是首次展示 imec 跨技术协同优化(XTCO)研究项目在提升计算系统热稳健性方面的潜力。XTCO 计划自 2025 年启动以来,旨在将 imec 的技术发展路径与行业面临的核心系统升级挑战紧密结合。该项目聚焦四大系统级支柱:计算密度、供电、热管理以及内存密度与带宽。通过融合 STCO 与 DTCO 思维,并结合 imec 在半导体技术领域的广泛专业知识,这种多维度整合方式为应对计算系统性能需求的增长与多样化提供了独特价值。imec 邀请半导体生态系统的各方企业加入该计划,包括无晶圆厂和系统厂商,共同攻克关键的系统升级瓶颈。