Fu Chen · 2026-04-11
为什么大语言模型需要如此庞大的计算资源?
| 维度 | 普通计算任务 | LLM 推理 | 差异 |
|---|---|---|---|
| 参数 / 数据量 | KB ~ MB | 数十 GB ~ TB | 10⁶× |
| FLOPs / 请求 | 10³ ~ 10⁶ | 10¹¹ ~ 10¹⁴ | 10⁸× |
| 内存带宽需求 | GB/s | TB/s | 10³× |
| 并行度 | 4~64 线程 | 数千~万并行单元 | 10²× |
| 精度 | FP64 双精度 | FP16 / INT8 / INT4 | 更低精度 |
| 功耗 | 数瓦~数十瓦 | 数百~千瓦 | 10²× |
将离散 token 映射为连续向量,并注入位置信息,使模型感知序列顺序。
每个 token 通过 Q/K/V 与所有其他 token 计算相关性,捕获全局上下文依赖。
两层全连接网络(通常 4× 扩展比),对注意力输出做非线性变换。
跳跃连接缓解梯度消失,LayerNorm 稳定训练,使百层堆叠成为可能。
Query (Q):当前 token "在找什么"
Key (K):每个 token "是什么"
Value (V):每个 token "包含什么信息"
Q·Kᵀ 算相似度 → Softmax 归一化 → 加权求和 V
将 Q/K/V 拆分为 h 个头,每头独立关注不同语义子空间(语法、共指、语义相似度),最后拼接。
自注意力时间复杂度 O(n²·d),n 为序列长度。上下文越长,成本平方增长。
LLM 解码是自回归的:每个新 token 依赖所有之前的 token,无法一次性并行输出。
优化单线程延迟:大缓存、乱序执行、分支预测。适合复杂逻辑。
优化吞吐量:大量简单核心并行处理,非常适合矩阵乘法。
专为矩阵乘法设计的硬件单元,一个时钟周期完成 4×4 矩阵乘加运算。
3D 堆叠技术,Blackwell Ultra 拥有最高 288GB HBM3e,带宽可达 8 TB/s,远超 CPU 内存。
自回归生成时,每个 token 只做少量计算,但需加载整个模型权重。GPU 算力利用率低至 1~5%。
TPU 的核心计算单元。数据在计算单元阵列中像波浪一样流动,每个单元完成一次乘加并将结果传递给邻居,极大提升矩阵乘法效率。
通过 ICI (Inter-Chip Interconnect) 高速互联,数千颗 TPU 组成 Pod,带宽远超 GPU 集群的 NVLink+InfiniBand 方案。
去掉 GPU 中图形渲染的冗余硬件,全部晶体管预算用于Transformer 推理加速。
不同于 GPU 的动态调度,LPU 采用静态编排——编译期确定每个运算的精确时序,消除运行时调度开销。
单颗 LPU 配备 500MB SRAM,并提供 150TB/s SRAM 带宽,以极低延迟处理解码阶段。
| 维度 | GPU (Blackwell Ultra) | TPU (v6e) | LPU (NVIDIA Groq 3) |
|---|---|---|---|
| 设计定位 | 通用并行计算 | ML 训练+推理 | 推理专用 ASIC |
| 核心架构 | CUDA + Tensor Core | 脉动阵列 (Systolic) | 脉动阵列 + 静态调度 |
| 内存 | HBM3e 288GB, 8TB/s | HBM 32GB/芯片, 1600GB/s | SRAM 500MB/芯片, 150TB/s |
| 调度模型 | 动态调度(运行时) | 半静态 | 全静态(编译时) |
| 训练能力 | 强 | 强 | 不支持 |
| 推理延迟 | 中等 | 中等 | 极低 |
| 大规模互联 | NVLink 5 + X800 网络 | ICI 原生互联 | LPX 机架 640TB/s Scale-Up |
| 生态与灵活性 | 最强 (CUDA 生态) | Google 云生态 | NVIDIA Rubin + Dynamo(推理优先) |
| 获取方式 | 购买/云租用 | 仅 Google Cloud | 随 Vera Rubin + LPX 平台交付 |
传统内存,容量大、成本低,但带宽有限 (~100 GB/s)
3D 堆叠 + TSV 穿硅通孔,带宽达 TB/s 级别
与计算单元集成在同一芯片,延迟极低 (<1ns)
| 指标 | DDR5 | HBM3 | SRAM |
|---|---|---|---|
| 带宽 | ~100 GB/s | ~3,350 GB/s | 数十 TB/s |
| 延迟 | ~80 ns | ~100 ns | <1 ns |
| 典型容量 | 16~256 GB | 24~192 GB | 数百 MB |
| 成本 ($/GB) | ~$3 | ~$20-30 | 极高 |
| 封装方式 | PCB 平面 | 3D 堆叠 + 硅中介层 | 片上集成 |
| 典型应用 | CPU 主存 | GPU / TPU 显存 | 缓存 / LPU |
多芯片封装在同一基板,通过引线键合互联
硅中介层连接 GPU + HBM,TSMC CoWoS 代表方案
芯片垂直堆叠,TSV 垂直互联,如 AMD MI300
模块化小芯片,通过 UCIe 标准互联,灵活组合
单个服务器内多 GPU 之间的高速互联
| 技术 | 带宽 | 说明 |
|---|---|---|
| NVLink 5.0 | 1.8 TB/s | 每 GPU 双向带宽,低延迟直连 |
| NVLink Switch | 130 TB/s | NVL72 级共享内存域聚合带宽 |
| PCIe 5.0 x16 | 128 GB/s | 双向通用互联 |
| PCIe 6.0 x16 | 256 GB/s | 下一代主机互联 |
多个服务器之间的网络互联
| 技术 | 带宽 | 说明 |
|---|---|---|
| InfiniBand NDR | 400 Gbps | 已规模部署,超低延迟 |
| Quantum-X800 / XDR | 800 Gbps | 端到端 800G AI 互联平台 |
| Spectrum-X800 + RoCE | 800 GbE | AI 以太网 + RDMA 加速 |
| ConnectX SuperNIC | 最高 1.6 Tb/s | 单 GPU 上行带宽上限(新一代) |
从"会聊天"到"会做事" — 自主行动的 AI
LLM 本质上只会输出文本——但通过约定的格式,系统可以识别并执行"动作"
Agent = LLM + 工具调用 + 记忆 + 自主循环。不只是聊天,而是能感知环境、制定计划、调用工具、自主完成复杂任务。
Reasoning + Acting 交替进行:先"思考"当前应该做什么,再"执行"一步动作,观察结果后继续推理。
即 LLM 的上下文窗口。当前对话的所有内容都在此。窗口有限(如 200K tokens),超出则遗忘。
将重要信息存入向量数据库。需要时通过语义搜索检索 (RAG),突破上下文窗口限制。
Agent 的草稿本 (Scratchpad):记录当前任务状态、中间结果、待办事项,确保多步任务不迷失。
Agent 的代码执行、文件操作等在隔离容器中运行,防止影响宿主系统。即使 Agent 出错,损害范围有限。
Agent 只被授予完成任务所需的最少权限。不能访问无关文件、不能发送未授权请求、不能修改系统配置。
关键操作(如删除数据、发送邮件、执行支付)需要人类确认后才执行。高风险操作永远由人类把关。
输入过滤防注入攻击、输出审查防敏感信息泄露、对齐训练确保 Agent 遵循安全边界。
Anthropic 出品。深度集成终端与 IDE,支持 multi-agent 代码审查。理解整个代码库上下文,可自主完成从需求分析到编码、测试的完整流程。
开源自主 Agent 框架,GitHub 增长最快项目之一。支持 20+ 消息平台集成,本地运行,持久记忆与身份。可连接多种 LLM 后端。
Nous Research 出品。核心特性是自我改进学习循环——Agent 从经验中提取技能,随使用越来越强。支持本地/Docker/SSH 等多后端。
| 维度 | Claude Code | OpenClaw | Hermes |
|---|---|---|---|
| 开发者 | Anthropic | 社区开源 | Nous Research |
| 开源 | 部分 | 完全开源 | 完全开源 |
| 核心优势 | 代码理解深度 | 平台集成广度 | 自我改进 |
| 记忆 | 项目上下文 | 持久跨会话记忆 | 技能库 + 经验记忆 |
| 部署 | 云端 + 本地 | 本地优先 | 本地/Docker/SSH/云 |
Function Call 不是模型直接执行代码,而是模型输出结构化调用意图(函数名 + 参数),由外部系统真正执行。
用户提问 → LLM 决策调用工具 → 应用执行函数 → 结果回填给 LLM → LLM 生成最终答案。Agent 的行动闭环由此形成。
把“能说”升级为“能做”,同时通过参数校验、权限控制、审计日志,确保调用可控、可追踪、可回滚。
过去每个 Agent 都要单独对接数据库、文件系统、API。MCP 用统一接口描述工具能力,降低重复集成成本。
MCP Host(Agent 应用)连接多个 MCP Server(工具提供方),由协议统一工具发现、调用与返回。
一次开发,多 Agent 复用;能力可插拔;企业可在内网发布标准 MCP Server,让代码库、文档库、数据源快速被 AI 调用。
Skill 是面向任务的能力包:包含执行步骤、工具组合、输入输出约束,让 Agent 在特定场景稳定复用。
把个人经验沉淀为团队资产。新人不需要重学复杂流程,调用同一个 Skill 就能得到一致质量和可预测结果。
Function Call 负责单次执行,MCP 负责统一接入,Skill 负责编排成可复用工作流。
美国 vs 中国 · 性能 vs 价格
| 模型 | 厂商 | 参数 | 上下文 | 输入 $/M | 输出 $/M | SWE-bench V. | SWE-bench Pro | 开源 |
|---|---|---|---|---|---|---|---|---|
| 🇺🇸 美国模型 | ||||||||
| Opus 4.6 | Anthropic | - | 1M | $5.00 | $25.00 | 80.8% | 57.3% | 否 |
| Sonnet 4.6 | Anthropic | - | 200K | $3.00 | $15.00 | 79.6% | - | 否 |
| GPT-5.4 | OpenAI | - | 544K | $2.50 | $15.00 | ~80% | 57.7% | 否 |
| Gemini 3.1 Pro | - | 1M | $2.00 | $12.00 | 80.6% | 54.2% | 否 | |
| 🇨🇳 中国模型 | ||||||||
| Kimi K2.5 | Moonshot | 1T MoE/32B | 256K | $0.38 | $1.72 | 76.8% | - | 是 |
| GLM 5.1 | Z.AI(智谱) | 754B MoE/40B | 200K | $1.26 | $3.96 | ~75% | 58.4% #1 | 是(MIT) |
| MiniMax M2.7 | MiniMax | - | 205K | $0.30 | $1.20 | 56.2% | - | 否 |
万亿参数
TB 级数据搬运
注意力机制
O(n²) 自回归
通用 vs 专用
各有权衡
DDR→HBM→SRAM
带宽 vs 容量
CoWoS · 3D
Chiplet 模块化
铜→光→CPO→OCS
Scale Up/Out
工具调用 · 记忆
安全 · 自主循环
Claude Code
OpenClaw · Hermes
美国旗舰 vs
中国高性价比
异构计算
AI 基础设施重塑