
第十七章Transformers LLMs — 知识点笔记综合来源Lecture 17 PDF35页、课堂笔记CSDN占位图17.1 LLM概述什么是LLMLarge参数量巨大数十亿→万亿级Language Model预测语言下一词预测下一个词 回答问题 讲故事 完成任务 生成式AI17.2 Tokenization ⭐Token vs WordToken 词、词缀、标点、特殊字符“The smallest tokenizer!” → [“The”, small, “est”, token, “izer”, “!”]优势允许处理新词/拼写错误/数字BPEByte Pair Encoding⭐初始token集所有字符数字特殊字符统计语料中最高频的token对→合并为新token重复→直到达到目标词汇量例Llama-2: 32K → Llama-3:128Ktokens17.3 因果语言建模 ⭐⭐Causal Language ModelingP(next token∣context tokens)P(\text{next token} | \text{context tokens})P(next token∣context tokens)条件于之前的所有token有序上下文一次生成一个token“The best class at SDU is ___” → 模型输出下一个token的概率分布→采样/选最大自回归解码Auto-Regressive Decoding计算下一token的概率分布选择下一token最大概率/采样top-k将选中token追加到上下文重复→直到stoptoken一次一个token→逐步生成完整文本17.4 Decoder Transformer ⭐⭐Encoder的问题标准Self-Attention→所有token互相可见→生成时偷看答案不适合因果自回归生成Masked Attention因果掩码只允许关注当前及之前的token不能看到未来上三角掩码→−∞-\infty−∞→Softmax后权重为0αSoftMax(QKTDkM)\boldsymbol{\alpha} \text{SoftMax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{D_k}} \mathbf{M}\right)αSoftMax(DkQKTM)Mij{0i≥j−∞ij\mathbf{M}_{ij} \begin{cases} 0 i \geq j \\ -\infty i j \end{cases}Mij{0−∞i≥jijDecoder展开每次新token加入→整个序列重新计算但可缓存之前的K,V→KV Cache加速最后一个token计算量最大需attend所有历史17.5 Llama-3架构 ⭐RMSNorm → Grouped Query Attention (RoPE) → 残差 → RMSNorm → FFN with SwiGLU → 残差组件说明RMSNormLayerNorm的简化版→训练稳定GQAGrouped Query Attention→效率表达力RoPERotary Position Embedding→融入Q,K的旋转位置编码SwiGLU门控FFN激活函数残差连接梯度直通规模Llama-3 70BHidden size: 8192 | 层数: 80 | Query heads: 64 | KV heads: 817.6 Encoder-Decoder vs Decoder-Only架构结构代表模型Encoder-Only双向AttentionBERTEncoder-Decoder编码解码Cross-Attention原版Transformer, T5, BARTDecoder-Only仅Masked AttentionGPT系列, Llama(现代主流)LLM演进时间线2018: Word2Vec, GloVe, GPT-1, BERT 2019: GPT-2, RoBERTa, XLNet 2020: GPT-3, T5, DeBERTa 2021-22: GPT-J, OPT, BLOOM 2023-: Llama-2, Llama-3, GPT-4 (Decoder-Only主导)笔记中的图片索引序号图片内容描述来源位置图1BPE构建过程Lecture 17 第7页图2自回归解码逐步生成Lecture 17 第13-18页图3Masked Attention因果掩码Lecture 17 第24-25页图4Llama-3架构图Lecture 17 第31页图5Encoder-Decoder结构Lecture 17 第33页图6LLM演进时间线Lecture 17 第34页笔记整理时间2026年6月30日