算力告急 & AI Agent

Fu Chen · 2026-04-11

01
第一章

算力

为什么大语言模型需要如此庞大的计算资源?

海量参数 矩阵运算 内存带宽瓶颈
01
LLM 算力需求

LLM vs 传统计算:核心差异

🧠LLM / 深度学习
  • 万亿级参数的密集矩阵乘法
  • 计算高度并行、数据依赖深
  • 内存带宽受限(Memory-bound)
  • 需要 FP16/BF16 低精度大吞吐
  • 自回归逐 token 生成,延迟敏感
💻传统计算任务
  • 标量/向量运算,数据规模较小
  • 分支逻辑多,串行依赖强
  • 计算受限(Compute-bound)
  • FP64 双精度,追求精确
  • 批量处理,延迟容忍度高
关键洞察: LLM 推理的瓶颈不在"算得快不快",而在"数据搬得快不快"——每生成一个 token,都需要将数十 GB 的模型权重从显存加载到计算单元。
01
LLM 算力需求

算力需求量化对比

维度普通计算任务LLM 推理差异
参数 / 数据量KB ~ MB数十 GB ~ TB10⁶×
FLOPs / 请求10³ ~ 10⁶10¹¹ ~ 10¹⁴10⁸×
内存带宽需求GB/sTB/s10³×
并行度4~64 线程数千~万并行单元10²×
精度FP64 双精度FP16 / INT8 / INT4更低精度
功耗数瓦~数十瓦数百~千瓦10²×
训练 GPT-4 估计消耗约 2.15×10²⁵ FLOPs,相当于单台消费级 PC 不间断计算约 68 万年
01
LLM 算力需求

算力需求直观对比

网页浏览
~1 GFLOP
Excel 计算
~10 GFLOP
视频编码
~100 GFLOP
3D 游戏渲染
~1 TFLOP
图像分类 CNN
~10 TFLOP
GPT-3 单次推理
~350 TFLOP
GPT-4 单次推理
~3500+ TFLOP
一次 GPT-4 对话的计算量,相当于浏览器打开网页的数百万倍
01
Transformer 工作原理

Transformer 整体架构

输入 Token 序列 词嵌入 + 位置编码 × N 层 多头自注意力 (MHA) Add & LayerNorm 前馈神经网络 (FFN) Add & LayerNorm 残差 线性层 + Softmax
词嵌入 + 位置编码

将离散 token 映射为连续向量,并注入位置信息,使模型感知序列顺序。

多头自注意力 (MHA)

每个 token 通过 Q/K/V 与所有其他 token 计算相关性,捕获全局上下文依赖。

前馈网络 (FFN)

两层全连接网络(通常 4× 扩展比),对注意力输出做非线性变换。

残差连接 + LayerNorm

跳跃连接缓解梯度消失,LayerNorm 稳定训练,使百层堆叠成为可能。

01
Transformer 工作原理

自注意力机制详解

输入 X token₁ token₂ token₃ ... Q K V QKᵀ/√d Softmax 注意力权重 × V 输出 Attention(Q,K,V) = Softmax(QKᵀ/√dₖ)·V
Q / K / V 是什么?

Query (Q):当前 token "在找什么"
Key (K):每个 token "是什么"
Value (V):每个 token "包含什么信息"

Q·Kᵀ 算相似度 → Softmax 归一化 → 加权求和 V

为什么要"多头"?

将 Q/K/V 拆分为 h 个头,每头独立关注不同语义子空间(语法、共指、语义相似度),最后拼接。

计算复杂度

自注意力时间复杂度 O(n²·d),n 为序列长度。上下文越长,成本平方增长

01
Transformer 工作原理

自回归生成:逐 Token 推理

推理时间步 Step 1 ← 生成 token 1 Step 2 ← 生成 token 2 Step 3 KV Cache 机制: 缓存已计算的 K/V 向量,每步只需计算新 token 的 Q,避免重复计算。
为何逐 token 生成?

LLM 解码是自回归的:每个新 token 依赖所有之前的 token,无法一次性并行输出。

性能瓶颈:
每生成 1 个 token 都要加载全部模型权重。175B 参数(FP16)每步搬运 ~350 GB 数据。推理严重受限于内存带宽
01
加速芯片

CPU vs GPU:架构差异

CPU 大核心(少,强单线程) Core 1 Core 2 Core 3 Core 4 大容量缓存 L1/L2/L3 复杂控制逻辑 DDR5 ~100 GB/s GPU 小核心(多,强吞吐) ×16,384+ CUDA 核心 Tensor Core 矩阵加速 简化控制逻辑 HBM3 ~3.35 TB/s
CPU 设计哲学

优化单线程延迟:大缓存、乱序执行、分支预测。适合复杂逻辑。

GPU 设计哲学

优化吞吐量:大量简单核心并行处理,非常适合矩阵乘法。

为何 GPU 适合 LLM?
Transformer 核心运算是大规模矩阵乘法——正是 GPU 数千核心 + Tensor Core 的用武之地。
01
加速芯片

GPU 加速关键技术栈

Tensor Core

专为矩阵乘法设计的硬件单元,一个时钟周期完成 4×4 矩阵乘加运算。

D = A × B + C (FP16→FP32)
📦HBM 高带宽显存

3D 堆叠技术,Blackwell Ultra 拥有最高 288GB HBM3e,带宽可达 8 TB/s,远超 CPU 内存。

DDR5
100GB/s
HBM3e
8,000GB/s
🔗多 GPU 并行
  • 张量并行:单层权重切分到多 GPU
  • 流水线并行:不同层分配到不同 GPU
  • NVLink 5:GPU 间 1.8 TB/s 双向互联
🧮量化与优化
  • FP16/BF16:吞吐翻倍,精度损失极小
  • INT8/INT4:4× 压缩,适合推理
  • FlashAttention:IO 感知的融合算子
01
加速芯片

GPU 的推理瓶颈:内存墙

内存带宽墙

自回归生成时,每个 token 只做少量计算,但需加载整个模型权重。GPU 算力利用率低至 1~5%

Prefill
利用率 ~60-80%
Decode
~1-5%
其他挑战
  • 功耗巨大:B300 级 GPU TGP 最高约 1400W
  • 成本高昂:主流以整机/整柜(DGX B300 / GB300)部署
  • 通用架构开销:图形硬件非推理最优
Decode 阶段资源利用 GPU 算力容量 使用 闲置 ~95% 内存带宽 — 已饱和! 算力大量空闲 带宽成为唯一瓶颈 → Memory-Bound!
01
加速芯片

Google TPU:张量处理单元

🔲脉动阵列 (Systolic Array)

TPU 的核心计算单元。数据在计算单元阵列中像波浪一样流动,每个单元完成一次乘加并将结果传递给邻居,极大提升矩阵乘法效率。

🎯专为 ML 设计
  • BF16 原生支持:专为深度学习优化的精度格式
  • 大容量 HBM:TPU v6e 每芯片 32GB,带宽 1600GB/s
  • 确定性执行:比 GPU 更可预测的性能
🌐TPU Pod 大规模互联

通过 ICI (Inter-Chip Interconnect) 高速互联,数千颗 TPU 组成 Pod,带宽远超 GPU 集群的 NVLink+InfiniBand 方案。

TPU 架构示意 脉动阵列 (128×128 / 256×256) 数据像波浪流动 → HBM3 显存(v6e) ICI 芯片间高速互联 TPU Pod(数千芯片组网)
01
加速芯片

NVIDIA Groq 3 LPU:语言处理单元

🎯推理专用 ASIC

去掉 GPU 中图形渲染的冗余硬件,全部晶体管预算用于Transformer 推理加速

⏱️确定性执行

不同于 GPU 的动态调度,LPU 采用静态编排——编译期确定每个运算的精确时序,消除运行时调度开销。

💾SRAM 优先 — 消灭带宽墙

单颗 LPU 配备 500MB SRAM,并提供 150TB/s SRAM 带宽,以极低延迟处理解码阶段。

LPU 架构示意 SRAM权重存储 SRAMKV Cache 矩阵运算阵列 (Systolic) 流水线化矩阵乘法 静态调度器(编译时确定) 芯片间高速互联 无 HBM — 全 SRAM 架构
01
加速芯片

GPU vs TPU vs LPU:三方对比

维度GPU (Blackwell Ultra)TPU (v6e)LPU (NVIDIA Groq 3)
设计定位通用并行计算ML 训练+推理推理专用 ASIC
核心架构CUDA + Tensor Core脉动阵列 (Systolic)脉动阵列 + 静态调度
内存HBM3e 288GB, 8TB/sHBM 32GB/芯片, 1600GB/sSRAM 500MB/芯片, 150TB/s
调度模型动态调度(运行时)半静态全静态(编译时)
训练能力不支持
推理延迟中等中等极低
大规模互联NVLink 5 + X800 网络ICI 原生互联LPX 机架 640TB/s Scale-Up
生态与灵活性最强 (CUDA 生态)Google 云生态NVIDIA Rubin + Dynamo(推理优先)
获取方式购买/云租用仅 Google Cloud随 Vera Rubin + LPX 平台交付
总结:GPU 最通用灵活,TPU 在 Google 生态内训练效率极高,LPU 以牺牲通用性换取推理极致低延迟。未来可能是异构计算——训练用 GPU/TPU,推理部署用专用芯片。
01
存储层级

DDR vs HBM vs SRAM:结构与性能

DDR5 (平面 DIMM)
芯片平面排列在 PCB 上

传统内存,容量大、成本低,但带宽有限 (~100 GB/s)

HBM3 (3D 堆叠)
← Die 堆叠 硅中介层 (TSV)

3D 堆叠 + TSV 穿硅通孔,带宽达 TB/s 级别

SRAM (片上集成)
计算 SRAM 计算 计算单元与存储紧密交织

与计算单元集成在同一芯片,延迟极低 (<1ns)

指标DDR5HBM3SRAM
带宽~100 GB/s~3,350 GB/s数十 TB/s
延迟~80 ns~100 ns<1 ns
典型容量16~256 GB24~192 GB数百 MB
成本 ($/GB)~$3~$20-30极高
封装方式PCB 平面3D 堆叠 + 硅中介层片上集成
典型应用CPU 主存GPU / TPU 显存缓存 / LPU
01
封装技术

从 SiP 到 Chiplet:封装演进

传统 SiP
基板 (Substrate)Die ADie B

多芯片封装在同一基板,通过引线键合互联

2.5D CoWoS
基板硅中介层 (Interposer)GPUHBMHBMH

硅中介层连接 GPU + HBM,TSMC CoWoS 代表方案

3D 堆叠
Logic DieCache DieCompute Die← TSV

芯片垂直堆叠,TSV 垂直互联,如 AMD MI300

Chiplet + UCIe
UCIe 互联标准计算IO存储AI

模块化小芯片,通过 UCIe 标准互联,灵活组合

AI 芯片案例: NVIDIA Blackwell Ultra 采用 CoWoS 2.5D 封装(HBM3e);AMD MI300X 采用 3D Chiplet 堆叠计算/IO/HBM;NVIDIA Groq 3 LPU 以单芯片 SRAM + LPX 板级互联实现低延迟推理。
01
互联技术

Scale Up vs Scale Out

⬆️ Scale Up(节点内)

单个服务器内多 GPU 之间的高速互联

技术带宽说明
NVLink 5.01.8 TB/s每 GPU 双向带宽,低延迟直连
NVLink Switch130 TB/sNVL72 级共享内存域聚合带宽
PCIe 5.0 x16128 GB/s双向通用互联
PCIe 6.0 x16256 GB/s下一代主机互联
⬅➡ Scale Out(节点间)

多个服务器之间的网络互联

技术带宽说明
InfiniBand NDR400 Gbps已规模部署,超低延迟
Quantum-X800 / XDR800 Gbps端到端 800G AI 互联平台
Spectrum-X800 + RoCE800 GbEAI 以太网 + RDMA 加速
ConnectX SuperNIC最高 1.6 Tb/s单 GPU 上行带宽上限(新一代)
核心挑战: 模型越大,需要的 GPU 越多,节点间通信开销越大。通信带宽和延迟直接决定了多机训练和推理的效率上限。
01
互联技术

互联介质演进:从铜到光

🔌 铜缆 (DAC/ACC)
  • 成本最低,短距 (<5m)
  • 功耗低,无需光电转换
  • 带宽受限于信号衰减
  • 机柜内连接主力
💡 可插拔光模块
  • 800G 已主流,1.6T 已开始出货
  • 传输距离长 (数百米~数十公里)
  • 可热插拔,易于维护
  • 当前数据中心互联主力,仍会向 3.2T 演进
🔬 CPO 光电共封装
  • 光引擎与交换芯片共封装
  • 消除可插拔接口功耗
  • 功耗降低 ~50%
  • 面向 3.2T / 6.4T+ 高密度互联
🌐 OCS 光电路交换
  • 全光学路径交换,无需光电转换
  • 毫秒级重配网络拓扑
  • Google Jupiter 已部署
  • AI 集群动态流量调度
铜缆成熟 可插拔光模块 (当前主流)800G / 1.6T CPO / NPO (验证与部署中)3.2T / 6.4T+ OCS 光交换 (前沿)全光调度
02
第二章

AI Agent

从"会聊天"到"会做事" — 自主行动的 AI

02
AI Agent

LLM 如何"调用工具"

LLM 本质上只会输出文本——但通过约定的格式,系统可以识别并执行"动作"

👤 用户
上海今天天气怎么样?
🧠 LLM 内部推理(用户看不到)
用户在问天气,我自己不知道实时天气,需要调用 get_weather 工具来查询。
📤 LLM 输出的结构化指令(不是给用户的)
{"tool": "get_weather", "args": {"city": "上海"}}
↓ 系统拦截并执行工具 ↓
📥 工具返回结果(喂回给 LLM)
{"temp": "24°C", "weather": "多云", "humidity": "65%"}
💬 LLM 最终回复(用户看到的)
上海今天多云,气温 24°C,湿度 65%,适合出行!
核心机制:LLM 只输出文本,但通过训练它学会了在需要时输出约定格式的 JSON。外围系统解析这个 JSON,执行对应工具,再把结果拼回给 LLM——这就是 Agent 能"做事"的本质。
02
AI Agent

Agent 核心原理:感知→推理→行动

Agent 循环 (ReAct 模式) LLM 大脑 推理 · 规划 · 决策 ① 感知 用户指令 / 环境 ② 思考 分析 · 拆解 · 规划 ③ 行动 调用工具 / API ④ 观察 获取结果 / 反馈 循环直到任务完成 可用工具:搜索、代码执行、文件读写、API 调用、数据库查询...
什么是 Agent?

Agent = LLM + 工具调用 + 记忆 + 自主循环。不只是聊天,而是能感知环境、制定计划、调用工具、自主完成复杂任务。

ReAct 模式

Reasoning + Acting 交替进行:先"思考"当前应该做什么,再"执行"一步动作,观察结果后继续推理。

02
AI Agent

Agent 记忆机制

短期记忆

即 LLM 的上下文窗口。当前对话的所有内容都在此。窗口有限(如 200K tokens),超出则遗忘。

💾长期记忆

将重要信息存入向量数据库。需要时通过语义搜索检索 (RAG),突破上下文窗口限制。

📝工作记忆

Agent 的草稿本 (Scratchpad):记录当前任务状态、中间结果、待办事项,确保多步任务不迷失。

RAG 检索增强生成流程 用户提问 向量检索 注入上下文 LLM 生成回答
02
AI Agent

Agent 安全机制

🔒沙箱隔离

Agent 的代码执行、文件操作等在隔离容器中运行,防止影响宿主系统。即使 Agent 出错,损害范围有限。

🛡️最小权限

Agent 只被授予完成任务所需的最少权限。不能访问无关文件、不能发送未授权请求、不能修改系统配置。

👤人机协同审批 (HITL)

关键操作(如删除数据、发送邮件、执行支付)需要人类确认后才执行。高风险操作永远由人类把关。

🧱Guardrails 护栏

输入过滤防注入攻击、输出审查防敏感信息泄露、对齐训练确保 Agent 遵循安全边界。

核心原则:Agent 越强大,安全机制越关键。好的 Agent 框架 = 能力 × 控制
02
Coding Agent 工具

三大 Coding Agent

🟣Claude Code

Anthropic 出品。深度集成终端与 IDE,支持 multi-agent 代码审查。理解整个代码库上下文,可自主完成从需求分析到编码、测试的完整流程。

特色:终端 + IDE + Web + Slack 全平台
🟢OpenClaw

开源自主 Agent 框架,GitHub 增长最快项目之一。支持 20+ 消息平台集成,本地运行,持久记忆与身份。可连接多种 LLM 后端。

特色:开源 · 本地优先 · 跨平台
🟠Hermes

Nous Research 出品。核心特性是自我改进学习循环——Agent 从经验中提取技能,随使用越来越强。支持本地/Docker/SSH 等多后端。

特色:自我学习 · 技能积累 · 多后端
维度Claude CodeOpenClawHermes
开发者Anthropic社区开源Nous Research
开源部分完全开源完全开源
核心优势代码理解深度平台集成广度自我改进
记忆项目上下文持久跨会话记忆技能库 + 经验记忆
部署云端 + 本地本地优先本地/Docker/SSH/云
02
Coding Agent 工具

Function Call:让模型会“调用”

🧠本质

Function Call 不是模型直接执行代码,而是模型输出结构化调用意图(函数名 + 参数),由外部系统真正执行。

🔁典型流程

用户提问 → LLM 决策调用工具 → 应用执行函数 → 结果回填给 LLM → LLM 生成最终答案。Agent 的行动闭环由此形成。

🛡️价值

把“能说”升级为“能做”,同时通过参数校验、权限控制、审计日志,确保调用可控、可追踪、可回滚

概括:Function Call 是 Agent 的执行接口层,决定了模型如何安全地连接外部能力。
02
Coding Agent 工具

MCP:工具接入的统一协议

🔌它解决什么问题

过去每个 Agent 都要单独对接数据库、文件系统、API。MCP 用统一接口描述工具能力,降低重复集成成本。

🏗️核心结构

MCP Host(Agent 应用)连接多个 MCP Server(工具提供方),由协议统一工具发现、调用与返回。

🚀工程收益

一次开发,多 Agent 复用;能力可插拔;企业可在内网发布标准 MCP Server,让代码库、文档库、数据源快速被 AI 调用。

概括:MCP 把“工具孤岛”变成“标准接口生态”,是 Agent 时代的连接层。
02
Coding Agent 工具

Skill:把复杂能力封装成可复用模块

🧩定义

Skill 是面向任务的能力包:包含执行步骤、工具组合、输入输出约束,让 Agent 在特定场景稳定复用。

📚为什么重要

把个人经验沉淀为团队资产。新人不需要重学复杂流程,调用同一个 Skill 就能得到一致质量和可预测结果。

🎯与前两者关系

Function Call 负责单次执行,MCP 负责统一接入,Skill 负责编排成可复用工作流。

三层抽象:Call(调用)→ MCP(连接)→ Skill(编排),共同构成现代 Coding Agent 的能力栈。
03
第三章

前沿模型对比

美国 vs 中国 · 性能 vs 价格

03
前沿模型对比

美国 vs 中国前沿模型

模型厂商参数上下文输入 $/M输出 $/MSWE-bench V.SWE-bench Pro开源
🇺🇸 美国模型
Opus 4.6Anthropic-1M$5.00$25.0080.8%57.3%
Sonnet 4.6Anthropic-200K$3.00$15.0079.6%-
GPT-5.4OpenAI-544K$2.50$15.00~80%57.7%
Gemini 3.1 ProGoogle-1M$2.00$12.0080.6%54.2%
🇨🇳 中国模型
Kimi K2.5Moonshot1T MoE/32B256K$0.38$1.7276.8%-
GLM 5.1Z.AI(智谱)754B MoE/40B200K$1.26$3.96~75%58.4% #1是(MIT)
MiniMax M2.7MiniMax-205K$0.30$1.2056.2%-
核心发现: 美国模型在综合性能上领先,但中国模型价格仅为 1/10~1/20。GLM 5.1 在 SWE-bench Pro 上超越所有美国模型拿下第一。Kimi K2.5 是开源模型中最强编码能力代表。
03
前沿模型对比

价格 vs 性能象限图

输出价格 ($/M tokens) → SWE-bench Verified (%) → 50% 60% 70% 80% $1 $5 $10 $15 $20 $25 性价比之王 旗舰性能 MiniMax M2.7 Kimi K2.5 开源 · 超高性价比 GLM 5.1 SWE Pro #1 Gemini 3.1 Pro Sonnet 4.6 GPT-5.4 Opus 4.6 综合最强 美国模型 中国模型
趋势: 中国模型在左上角(低价高能)快速追赶,美国模型集中在右上角(高价旗舰)。两者性能差距在缩小,但价格差距达 10-20 倍
总结

全景回顾

🧮
LLM 算力

万亿参数
TB 级数据搬运

⚙️
Transformer

注意力机制
O(n²) 自回归

🎮
GPU/TPU/LPU

通用 vs 专用
各有权衡

💾
存储层级

DDR→HBM→SRAM
带宽 vs 容量

📦
封装技术

CoWoS · 3D
Chiplet 模块化

🔗
互联技术

铜→光→CPO→OCS
Scale Up/Out

🤖
AI Agent

工具调用 · 记忆
安全 · 自主循环

💻
Coding Agent

Claude Code
OpenClaw · Hermes

🏆
模型竞赛

美国旗舰 vs
中国高性价比

🚀
未来

异构计算
AI 基础设施重塑