算力告急 & AI Agent

Fu Chen · 2026-04-11

01

第一章

算力

为什么大语言模型需要如此庞大的计算资源？

01

LLM 算力需求

LLM vs 传统计算：核心差异

🧠LLM / 深度学习

万亿级参数的密集矩阵乘法
计算高度并行、数据依赖深
内存带宽受限（Memory-bound）
需要 FP16/BF16 低精度大吞吐
自回归逐 token 生成，延迟敏感

💻传统计算任务

标量/向量运算，数据规模较小
分支逻辑多，串行依赖强
计算受限（Compute-bound）
FP64 双精度，追求精确
批量处理，延迟容忍度高

关键洞察： LLM 推理的瓶颈不在"算得快不快"，而在"数据搬得快不快"——每生成一个 token，都需要将数十 GB 的模型权重从显存加载到计算单元。

01

LLM 算力需求

算力需求量化对比

维度	普通计算任务	LLM 推理	差异
参数 / 数据量	KB ~ MB	数十 GB ~ TB	10⁶×
FLOPs / 请求	10³ ~ 10⁶	10¹¹ ~ 10¹⁴	10⁸×
内存带宽需求	GB/s	TB/s	10³×
并行度	4~64 线程	数千~万并行单元	10²×
精度	FP64 双精度	FP16 / INT8 / INT4	更低精度
功耗	数瓦~数十瓦	数百~千瓦	10²×

训练 GPT-4 估计消耗约 2.15×10²⁵ FLOPs，相当于单台消费级 PC 不间断计算约 68 万年。

01

LLM 算力需求

算力需求直观对比

网页浏览

~1 GFLOP

Excel 计算

~10 GFLOP

视频编码

~100 GFLOP

3D 游戏渲染

~1 TFLOP

图像分类 CNN

~10 TFLOP

GPT-3 单次推理

~350 TFLOP

GPT-4 单次推理

~3500+ TFLOP

一次 GPT-4 对话的计算量，相当于浏览器打开网页的数百万倍。

01

Transformer 工作原理

Transformer 整体架构

❶ 词嵌入 + 位置编码

将离散 token 映射为连续向量，并注入位置信息，使模型感知序列顺序。

❷ 多头自注意力 (MHA)

每个 token 通过 Q/K/V 与所有其他 token 计算相关性，捕获全局上下文依赖。

❸ 前馈网络 (FFN)

两层全连接网络（通常 4× 扩展比），对注意力输出做非线性变换。

❹ 残差连接 + LayerNorm

跳跃连接缓解梯度消失，LayerNorm 稳定训练，使百层堆叠成为可能。

01

Transformer 工作原理

自注意力机制详解

Q / K / V 是什么？

Query (Q)：当前 token "在找什么"
Key (K)：每个 token "是什么"
Value (V)：每个 token "包含什么信息"

Q·Kᵀ 算相似度 → Softmax 归一化 → 加权求和 V

为什么要"多头"？

将 Q/K/V 拆分为 h 个头，每头独立关注不同语义子空间（语法、共指、语义相似度），最后拼接。

计算复杂度

自注意力时间复杂度 O(n²·d)，n 为序列长度。上下文越长，成本平方增长。

01

Transformer 工作原理

自回归生成：逐 Token 推理

为何逐 token 生成？

LLM 解码是自回归的：每个新 token 依赖所有之前的 token，无法一次性并行输出。

性能瓶颈：
每生成 1 个 token 都要加载全部模型权重。175B 参数(FP16)每步搬运 ~350 GB 数据。推理严重受限于内存带宽。

01

加速芯片

CPU vs GPU：架构差异

CPU 设计哲学

优化单线程延迟：大缓存、乱序执行、分支预测。适合复杂逻辑。

GPU 设计哲学

优化吞吐量：大量简单核心并行处理，非常适合矩阵乘法。

为何 GPU 适合 LLM？
Transformer 核心运算是大规模矩阵乘法——正是 GPU 数千核心 + Tensor Core 的用武之地。

01

加速芯片

GPU 加速关键技术栈

⚡Tensor Core

专为矩阵乘法设计的硬件单元，一个时钟周期完成 4×4 矩阵乘加运算。

D = A × B + C (FP16→FP32)

📦HBM 高带宽显存

3D 堆叠技术，Blackwell Ultra 拥有最高 288GB HBM3e，带宽可达 8 TB/s，远超 CPU 内存。

DDR5

100GB/s

HBM3e

8,000GB/s

🔗多 GPU 并行

张量并行：单层权重切分到多 GPU
流水线并行：不同层分配到不同 GPU
NVLink 5：GPU 间 1.8 TB/s 双向互联

🧮量化与优化

FP16/BF16：吞吐翻倍，精度损失极小
INT8/INT4：4× 压缩，适合推理
FlashAttention：IO 感知的融合算子

01

加速芯片

GPU 的推理瓶颈：内存墙

● 内存带宽墙

自回归生成时，每个 token 只做少量计算，但需加载整个模型权重。GPU 算力利用率低至 1~5%。

Prefill

利用率 ~60-80%

Decode

~1-5%

● 其他挑战

功耗巨大：B300 级 GPU TGP 最高约 1400W
成本高昂：主流以整机/整柜（DGX B300 / GB300）部署
通用架构开销：图形硬件非推理最优

01

加速芯片

Google TPU：张量处理单元

🔲脉动阵列 (Systolic Array)

TPU 的核心计算单元。数据在计算单元阵列中像波浪一样流动，每个单元完成一次乘加并将结果传递给邻居，极大提升矩阵乘法效率。

🎯专为 ML 设计

BF16 原生支持：专为深度学习优化的精度格式
大容量 HBM：TPU v6e 每芯片 32GB，带宽 1600GB/s
确定性执行：比 GPU 更可预测的性能

🌐TPU Pod 大规模互联

通过 ICI (Inter-Chip Interconnect) 高速互联，数千颗 TPU 组成 Pod，带宽远超 GPU 集群的 NVLink+InfiniBand 方案。

01

加速芯片

NVIDIA Groq 3 LPU：语言处理单元

🎯推理专用 ASIC

去掉 GPU 中图形渲染的冗余硬件，全部晶体管预算用于Transformer 推理加速。

⏱️确定性执行

不同于 GPU 的动态调度，LPU 采用静态编排——编译期确定每个运算的精确时序，消除运行时调度开销。

💾SRAM 优先 — 消灭带宽墙

单颗 LPU 配备 500MB SRAM，并提供 150TB/s SRAM 带宽，以极低延迟处理解码阶段。

01

加速芯片

GPU vs TPU vs LPU：三方对比

维度	GPU (Blackwell Ultra)	TPU (v6e)	LPU (NVIDIA Groq 3)
设计定位	通用并行计算	ML 训练+推理	推理专用 ASIC
核心架构	CUDA + Tensor Core	脉动阵列 (Systolic)	脉动阵列 + 静态调度
内存	HBM3e 288GB, 8TB/s	HBM 32GB/芯片, 1600GB/s	SRAM 500MB/芯片, 150TB/s
调度模型	动态调度（运行时）	半静态	全静态（编译时）
训练能力	强	强	不支持
推理延迟	中等	中等	极低
大规模互联	NVLink 5 + X800 网络	ICI 原生互联	LPX 机架 640TB/s Scale-Up
生态与灵活性	最强 (CUDA 生态)	Google 云生态	NVIDIA Rubin + Dynamo（推理优先）
获取方式	购买/云租用	仅 Google Cloud	随 Vera Rubin + LPX 平台交付

总结：GPU 最通用灵活，TPU 在 Google 生态内训练效率极高，LPU 以牺牲通用性换取推理极致低延迟。未来可能是异构计算——训练用 GPU/TPU，推理部署用专用芯片。

01

存储层级

DDR vs HBM vs SRAM：结构与性能

DDR5 (平面 DIMM)

传统内存，容量大、成本低，但带宽有限 (~100 GB/s)

HBM3 (3D 堆叠)

3D 堆叠 + TSV 穿硅通孔，带宽达 TB/s 级别

SRAM (片上集成)

与计算单元集成在同一芯片，延迟极低 (<1ns)

指标	DDR5	HBM3	SRAM
带宽	~100 GB/s	~3,350 GB/s	数十 TB/s
延迟	~80 ns	~100 ns	<1 ns
典型容量	16~256 GB	24~192 GB	数百 MB
成本 ($/GB)	~$3	~$20-30	极高
封装方式	PCB 平面	3D 堆叠 + 硅中介层	片上集成
典型应用	CPU 主存	GPU / TPU 显存	缓存 / LPU

01

封装技术

从 SiP 到 Chiplet：封装演进

传统 SiP

多芯片封装在同一基板，通过引线键合互联

2.5D CoWoS

硅中介层连接 GPU + HBM，TSMC CoWoS 代表方案

3D 堆叠

芯片垂直堆叠，TSV 垂直互联，如 AMD MI300

Chiplet + UCIe

模块化小芯片，通过 UCIe 标准互联，灵活组合

AI 芯片案例： NVIDIA Blackwell Ultra 采用 CoWoS 2.5D 封装（HBM3e）；AMD MI300X 采用 3D Chiplet 堆叠计算/IO/HBM；NVIDIA Groq 3 LPU 以单芯片 SRAM + LPX 板级互联实现低延迟推理。

01

互联技术

Scale Up vs Scale Out

⬆️ Scale Up（节点内）

单个服务器内多 GPU 之间的高速互联

技术	带宽	说明
NVLink 5.0	1.8 TB/s	每 GPU 双向带宽，低延迟直连
NVLink Switch	130 TB/s	NVL72 级共享内存域聚合带宽
PCIe 5.0 x16	128 GB/s	双向通用互联
PCIe 6.0 x16	256 GB/s	下一代主机互联

⬅➡ Scale Out（节点间）

多个服务器之间的网络互联

技术	带宽	说明
InfiniBand NDR	400 Gbps	已规模部署，超低延迟
Quantum-X800 / XDR	800 Gbps	端到端 800G AI 互联平台
Spectrum-X800 + RoCE	800 GbE	AI 以太网 + RDMA 加速
ConnectX SuperNIC	最高 1.6 Tb/s	单 GPU 上行带宽上限（新一代）

核心挑战： 模型越大，需要的 GPU 越多，节点间通信开销越大。通信带宽和延迟直接决定了多机训练和推理的效率上限。

01

互联技术

互联介质演进：从铜到光

🔌 铜缆 (DAC/ACC)

成本最低，短距 (<5m)
功耗低，无需光电转换
带宽受限于信号衰减
机柜内连接主力

💡 可插拔光模块

800G 已主流，1.6T 已开始出货
传输距离长 (数百米~数十公里)
可热插拔，易于维护
当前数据中心互联主力，仍会向 3.2T 演进

🔬 CPO 光电共封装

光引擎与交换芯片共封装
消除可插拔接口功耗
功耗降低 ~50%
面向 3.2T / 6.4T+ 高密度互联

🌐 OCS 光电路交换

全光学路径交换，无需光电转换
毫秒级重配网络拓扑
Google Jupiter 已部署
AI 集群动态流量调度

02

第二章

AI Agent

从"会聊天"到"会做事" — 自主行动的 AI

02

AI Agent

LLM 如何"调用工具"？

LLM 本质上只会输出文本——但通过约定的格式，系统可以识别并执行"动作"

👤 用户

上海今天天气怎么样？

🧠 LLM 内部推理（用户看不到）

用户在问天气，我自己不知道实时天气，需要调用 get_weather 工具来查询。

📤 LLM 输出的结构化指令（不是给用户的）

{"tool": "get_weather", "args": {"city": "上海"}}

↓ 系统拦截并执行工具 ↓

📥 工具返回结果（喂回给 LLM）

{"temp": "24°C", "weather": "多云", "humidity": "65%"}

💬 LLM 最终回复（用户看到的）

上海今天多云，气温 24°C，湿度 65%，适合出行！

核心机制：LLM 只输出文本，但通过训练它学会了在需要时输出约定格式的 JSON。外围系统解析这个 JSON，执行对应工具，再把结果拼回给 LLM——这就是 Agent 能"做事"的本质。

02

AI Agent

Agent 核心原理：感知→推理→行动

什么是 Agent？

Agent = LLM + 工具调用 + 记忆 + 自主循环。不只是聊天，而是能感知环境、制定计划、调用工具、自主完成复杂任务。

ReAct 模式

Reasoning + Acting 交替进行：先"思考"当前应该做什么，再"执行"一步动作，观察结果后继续推理。

02

AI Agent

Agent 记忆机制

⚡短期记忆

即 LLM 的上下文窗口。当前对话的所有内容都在此。窗口有限（如 200K tokens），超出则遗忘。

💾长期记忆

将重要信息存入向量数据库。需要时通过语义搜索检索 (RAG)，突破上下文窗口限制。

📝工作记忆

Agent 的草稿本 (Scratchpad)：记录当前任务状态、中间结果、待办事项，确保多步任务不迷失。

02

AI Agent

Agent 安全机制

🔒沙箱隔离

Agent 的代码执行、文件操作等在隔离容器中运行，防止影响宿主系统。即使 Agent 出错，损害范围有限。

🛡️最小权限

Agent 只被授予完成任务所需的最少权限。不能访问无关文件、不能发送未授权请求、不能修改系统配置。

👤人机协同审批 (HITL)

关键操作（如删除数据、发送邮件、执行支付）需要人类确认后才执行。高风险操作永远由人类把关。

🧱Guardrails 护栏

输入过滤防注入攻击、输出审查防敏感信息泄露、对齐训练确保 Agent 遵循安全边界。

核心原则：Agent 越强大，安全机制越关键。好的 Agent 框架 = 能力 × 控制。

02

Coding Agent 工具

三大 Coding Agent

🟣Claude Code

Anthropic 出品。深度集成终端与 IDE，支持 multi-agent 代码审查。理解整个代码库上下文，可自主完成从需求分析到编码、测试的完整流程。

特色：终端 + IDE + Web + Slack 全平台

🟢OpenClaw

开源自主 Agent 框架，GitHub 增长最快项目之一。支持 20+ 消息平台集成，本地运行，持久记忆与身份。可连接多种 LLM 后端。

特色：开源 · 本地优先 · 跨平台

🟠Hermes

Nous Research 出品。核心特性是自我改进学习循环——Agent 从经验中提取技能，随使用越来越强。支持本地/Docker/SSH 等多后端。

特色：自我学习 · 技能积累 · 多后端

维度	Claude Code	OpenClaw	Hermes
开发者	Anthropic	社区开源	Nous Research
开源	部分	完全开源	完全开源
核心优势	代码理解深度	平台集成广度	自我改进
记忆	项目上下文	持久跨会话记忆	技能库 + 经验记忆
部署	云端 + 本地	本地优先	本地/Docker/SSH/云

02

Coding Agent 工具

Function Call：让模型会“调用”

🧠本质

Function Call 不是模型直接执行代码，而是模型输出结构化调用意图（函数名 + 参数），由外部系统真正执行。

🔁典型流程

用户提问 → LLM 决策调用工具 → 应用执行函数 → 结果回填给 LLM → LLM 生成最终答案。Agent 的行动闭环由此形成。

🛡️价值

把“能说”升级为“能做”，同时通过参数校验、权限控制、审计日志，确保调用可控、可追踪、可回滚。

概括：Function Call 是 Agent 的执行接口层，决定了模型如何安全地连接外部能力。

02

Coding Agent 工具

MCP：工具接入的统一协议

🔌它解决什么问题

过去每个 Agent 都要单独对接数据库、文件系统、API。MCP 用统一接口描述工具能力，降低重复集成成本。

🏗️核心结构

MCP Host（Agent 应用）连接多个 MCP Server（工具提供方），由协议统一工具发现、调用与返回。

🚀工程收益

一次开发，多 Agent 复用；能力可插拔；企业可在内网发布标准 MCP Server，让代码库、文档库、数据源快速被 AI 调用。

概括：MCP 把“工具孤岛”变成“标准接口生态”，是 Agent 时代的连接层。

02

Coding Agent 工具

Skill：把复杂能力封装成可复用模块

🧩定义

Skill 是面向任务的能力包：包含执行步骤、工具组合、输入输出约束，让 Agent 在特定场景稳定复用。

📚为什么重要

把个人经验沉淀为团队资产。新人不需要重学复杂流程，调用同一个 Skill 就能得到一致质量和可预测结果。

🎯与前两者关系

Function Call 负责单次执行，MCP 负责统一接入，Skill 负责编排成可复用工作流。

三层抽象：Call（调用）→ MCP（连接）→ Skill（编排），共同构成现代 Coding Agent 的能力栈。

03

第三章

前沿模型对比

美国 vs 中国 · 性能 vs 价格

03

前沿模型对比

美国 vs 中国前沿模型

模型	厂商	参数	上下文	输入 $/M	输出 $/M	SWE-bench V.	SWE-bench Pro	开源
🇺🇸 美国模型
Opus 4.6	Anthropic	-	1M	$5.00	$25.00	80.8%	57.3%	否
Sonnet 4.6	Anthropic	-	200K	$3.00	$15.00	79.6%	-	否
GPT-5.4	OpenAI	-	544K	$2.50	$15.00	~80%	57.7%	否
Gemini 3.1 Pro	Google	-	1M	$2.00	$12.00	80.6%	54.2%	否
🇨🇳 中国模型
Kimi K2.5	Moonshot	1T MoE/32B	256K	$0.38	$1.72	76.8%	-	是
GLM 5.1	Z.AI(智谱)	754B MoE/40B	200K	$1.26	$3.96	~75%	58.4% #1	是(MIT)
MiniMax M2.7	MiniMax	-	205K	$0.30	$1.20	56.2%	-	否

核心发现： 美国模型在综合性能上领先，但中国模型价格仅为 1/10~1/20。GLM 5.1 在 SWE-bench Pro 上超越所有美国模型拿下第一。Kimi K2.5 是开源模型中最强编码能力代表。

03

前沿模型对比

价格 vs 性能象限图

趋势： 中国模型在左上角（低价高能）快速追赶，美国模型集中在右上角（高价旗舰）。两者性能差距在缩小，但价格差距达 10-20 倍。

总结

全景回顾

🧮

LLM 算力

万亿参数
TB 级数据搬运

⚙️

Transformer

注意力机制
O(n²) 自回归

🎮

GPU/TPU/LPU

通用 vs 专用
各有权衡

💾

存储层级

DDR→HBM→SRAM
带宽 vs 容量

📦

封装技术

CoWoS · 3D
Chiplet 模块化

🔗

互联技术

铜→光→CPO→OCS
Scale Up/Out

🤖

AI Agent

工具调用 · 记忆
安全 · 自主循环

💻

Coding Agent

Claude Code
OpenClaw · Hermes

🏆

模型竞赛

美国旗舰 vs
中国高性价比

🚀

未来

异构计算
AI 基础设施重塑