大模型是怎么运行的?一文看懂软件与硬件的之间的协同

发布时间:2026/7/2 6:02:05
大模型是怎么运行的?一文看懂软件与硬件的之间的协同 大模型如今已深度融入我们的工作与生活但它究竟是如何“思考”并给出精准回答的这背后其实是一场精妙的软件算法与强悍硬件算力的协同舞蹈。通过解析其运行全流程我们可以清晰地看到从文本输入到最终输出的每一个关键环节。一、软件篇从文本到智能生成的逻辑闭环大模型的软件运行流程本质上是一个将人类语言转化为数学向量再通过概率预测生成新内容的过程。输入文本到向量空间当用户输入“中国首都是”时模型并非直接理解文字而是先通过 Tokenizer分词器 将文本切分为独立的 Token如“中/国/首/都/是”。随后每个 Token 会对应词表中的一个整数 ID例如“中1234”并被映射到高维向量语义空间中。在这个空间里“城市”和“水果”等概念有着不同的坐标模型借此理解词语间的语义关系。注意力机制与多头理解这是大模型的核心灵魂。Self-Attention自注意力机制 让模型在预测下一个词时能够“回看”并重点关注上下文中的关键信息。比如在预测“是”后面的词时模型会给予“中国”和“首都”更高的权重。而 多头注意力Multi-Head Attention 则像是有多个专家同时工作分别从语法、实体识别、远距离关联等不同角度理解句子结构从而捕捉更丰富的信息。位置编码与顺序信息为了让模型明白“中国首都是”和“首都是中国”意思完全不同位置编码 应运而生。它将位置信息第1个、第2个...叠加到词向量上确保模型不仅知道“是什么词”还知道“词在哪里”。参数、打分与采样模型内部拥有海量参数这些参数是在训练中不断调整的数字决定了模型的预测倾向。当看到“中国首都是”时参数会将“北”相关 Token 的分数推高。在 计分板 上“北”可能得分为 9.2远高于“上”、“南”、“东”。最后通过 温度控制Temperature 决定输出策略低温度更保守倾向于选择最高分的词高温度则增加随机性带来更多变化。一句话是怎样被接出来的这是一个 自回归Auto-regressive 的过程。输入“中国首都是” - 预测出“北” - 将“北”加入上下文变成“中国首都是北” - 再预测出“京” - 最终输出“北京”。前一步的输出永远成为后一步的输入。二、硬件篇支撑智能爆发的算力基石软件算法的每一次跳动都需要硬件提供巨大的能量。大模型对算力的需求主要集中在矩阵乘法和数据搬运上。计算需求矩阵乘加大模型的推理过程充斥着矩阵乘法。虽然单步计算如两个数相乘再加并不神秘但参数量极大导致计算总量惊人。这就是为什么我们需要专门的硬件加速。为什么选择 GPU并行优势CPU 像是几个精通复杂逻辑的“通用工”擅长分支判断但不适合海量重复劳动而 GPU 则是成千上万个“并行工”适合同一指令处理不同数据SIMD。在大模型这种需要大规模矩阵乘法的场景下GPU 的并行优势无可替代。AI 专用硬件单元现代 AI 芯片如 NVIDIA GPU内部集成了 Tensor Core这是专门针对矩阵乘法优化的硬件单元。它能一次处理一小块矩阵而不是一个数一个数地慢算极大地加速了注意力和前馈网络的运算。数据搬运HBM 与近端缓存计算快不代表整体快瓶颈往往在数据搬运。HBM高带宽内存 就像一个又大又宽的仓库能快速把参数送到计算单元附近。而 近端缓存SRAM/Cache 则像是手边的小货架离计算单元更近用于暂存马上要用的一小部分数据减少来回搬运的时间避免计算单元空转等待。一次推理的两个阶段Prefill 阶段读题模型一口气处理完所有输入 Token如“中国首都是”建立完整的上下文关系。这个阶段适合 GPU 并行处理输入越长等待时间越明显。Decode 阶段作答 模型开始一个 Token 接一个 Token 地生成答案先生成“北”再生成“京”。这是一个串行过程前一步输出是后一步的输入。上下文窗口限制KV Cache 变大在 Decode 阶段为了避免每一步都把历史内容从头算一遍系统使用了 KV Cache 技术保存已算过的中间结果Key 和 Value 向量。但这带来了副作用历史 Token 越多缓存越大显存占用越高带宽压力也更大。这也是为什么大模型的上下文窗口不能无限增大的物理原因之一。结语从软件层面的 Token 化、注意力机制到自回归生成再到硬件层面的 GPU 并行计算、Tensor Core 加速以及 KV Cache 优化大模型的运行是一个极其复杂的系统工程。理解这些原理不仅能帮助我们更好地使用 AI 工具也能让我们对人工智能的未来发展有更理性的预期。