机器学习与模式识别第十七章 Transformers LLMs 考点压缩

发布时间：2026/7/5 14:26:47

第十七章Transformers LLMs — 知识点笔记综合来源Lecture 17 PDF35页、课堂笔记CSDN占位图17.1 LLM概述什么是LLMLarge参数量巨大数十亿→万亿级Language Model预测语言下一词预测下一个词回答问题讲故事完成任务生成式AI17.2 Tokenization ⭐Token vs WordToken 词、词缀、标点、特殊字符“The smallest tokenizer!” → [“The”, small, “est”, token, “izer”, “!”]优势允许处理新词/拼写错误/数字BPEByte Pair Encoding⭐初始token集所有字符数字特殊字符统计语料中最高频的token对→合并为新token重复→直到达到目标词汇量例Llama-2: 32K → Llama-3:128Ktokens17.3 因果语言建模 ⭐⭐Causal Language ModelingP(next token∣context tokens)P(\text{next token} | \text{context tokens})P(next token∣context tokens)条件于之前的所有token有序上下文一次生成一个token“The best class at SDU is ___” → 模型输出下一个token的概率分布→采样/选最大自回归解码Auto-Regressive Decoding计算下一token的概率分布选择下一token最大概率/采样top-k将选中token追加到上下文重复→直到stoptoken一次一个token→逐步生成完整文本17.4 Decoder Transformer ⭐⭐Encoder的问题标准Self-Attention→所有token互相可见→生成时偷看答案不适合因果自回归生成Masked Attention因果掩码只允许关注当前及之前的token不能看到未来上三角掩码→−∞-\infty−∞→Softmax后权重为0αSoftMax(QKTDkM)\boldsymbol{\alpha} \text{SoftMax}\left(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt{D_k}} \mathbf{M}\right)αSoftMax(DkQKTM)Mij{0i≥j−∞ij\mathbf{M}_{ij} \begin{cases} 0 i \geq j \\ -\infty i j \end{cases}Mij{0−∞i≥jijDecoder展开每次新token加入→整个序列重新计算但可缓存之前的K,V→KV Cache加速最后一个token计算量最大需attend所有历史17.5 Llama-3架构 ⭐RMSNorm → Grouped Query Attention (RoPE) → 残差 → RMSNorm → FFN with SwiGLU → 残差组件说明RMSNormLayerNorm的简化版→训练稳定GQAGrouped Query Attention→效率表达力RoPERotary Position Embedding→融入Q,K的旋转位置编码SwiGLU门控FFN激活函数残差连接梯度直通规模Llama-3 70BHidden size: 8192 | 层数: 80 | Query heads: 64 | KV heads: 817.6 Encoder-Decoder vs Decoder-Only架构结构代表模型Encoder-Only双向AttentionBERTEncoder-Decoder编码解码Cross-Attention原版Transformer, T5, BARTDecoder-Only仅Masked AttentionGPT系列, Llama(现代主流)LLM演进时间线2018: Word2Vec, GloVe, GPT-1, BERT 2019: GPT-2, RoBERTa, XLNet 2020: GPT-3, T5, DeBERTa 2021-22: GPT-J, OPT, BLOOM 2023-: Llama-2, Llama-3, GPT-4 (Decoder-Only主导)笔记中的图片索引序号图片内容描述来源位置图1BPE构建过程Lecture 17 第7页图2自回归解码逐步生成Lecture 17 第13-18页图3Masked Attention因果掩码Lecture 17 第24-25页图4Llama-3架构图Lecture 17 第31页图5Encoder-Decoder结构Lecture 17 第33页图6LLM演进时间线Lecture 17 第34页笔记整理时间2026年6月30日

机器学习与模式识别 第十七章 Transformers LLMs 考点压缩

相关新闻

Redis初识

3步解锁网易云音乐：ncmdump工具让NCM格式不再困扰你

找了个开源的 AI 写小说 Agent，自己部署跑了一遍

最新新闻

CANN稀疏算子工作流维护

Matmul Tiling类使用说明

Perlite链接系统：实现Obsidian双向链接的Web版本

Rust开发者必备：indoc宏快速上手教程，5分钟掌握缩进字符串技巧

LLM Sandbox：安全执行AI生成代码的轻量级沙盒环境技术解析

深度解析nnU-Net：自适应医学影像分割框架的技术架构与实战应用

日新闻

STM32与EEPROM配置存储方案设计与实现

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

Java面试中常见的集合类问题及解答思路

周新闻

STM32与EEPROM配置存储方案设计与实现

B站视频下载神器BiliTools：5分钟学会轻松保存任何B站内容

Java面试中常见的集合类问题及解答思路

月新闻

Dify 本地部署与 AI 应用开发实战：从零构建智能工作流

社区贡献指南：如何向Kiran图标主题项目提交图标与改进

抖音下载器：一键保存无水印视频，轻松构建个人数字内容库

机器学习与模式识别第十七章 Transformers LLMs 考点压缩