LLM 基础原理 & 架构理解

LLM 的核心原理（LLM Core Principles）

概念	简要解释	举例/关键词
语言模型（Language Model）	给定前文，预测下一个词的概率分布	“I love New ___” → “York”
自回归模型（Autoregressive）	一次预测一个词，前一个词的输出作为下一个词输入	GPT 系列
自编码器（Autoencoder）	输入 = 输出，捕捉输入的深层结构	BERT
自注意力机制（Self-Attention）	输入序列中的每个词对其他词的重要性动态调整	Transformer 的核心组件
Transformer 架构	基于自注意力机制的模型架构，支持并行计算	GPT、BERT、T5 都用它

Transformer 机制简介

Transformer 是一种神经网络结构，非常擅长处理“语言”这种序列数据，是所有 LLM 的“建筑基石”。

Problems of RNN (Recurrent Neural Network)

Problem	Description	Impact
Sequential Processing	RNNs process tokens one by one (left to right).	No parallelism → Slow training & inference
Vanishing/Exploding Gradients	Hard to learn long-range dependencies.	Forget early tokens → Poor performance on long texts
Limited Memory	Only a fixed-size hidden state stores past info.	Context bottleneck → Can't fully “remember” long input
Hard to Parallelize	Due to token-by-token dependencies.	Training time increases significantly
Directional Limitation	Vanilla RNN is unidirectional (only past→future).	Can't use future context unless bidirectional model is used

Key Innovations of Transformer

Feature	Benefit
Self-Attention Mechanism	Allows the model to look at all words in a sentence at once, weighing their importance → captures global context
Parallel Processing	All tokens are processed simultaneously → massively faster training
No Sequential Dependency	Long-range dependencies can be learned more efficiently
Position Embeddings	Enables the model to still understand the order of tokens without recurrence
Scalability	Easy to scale up (GPT-3 has 175B params) due to clean, stackable architecture

Transformer架构

Transformer整体可以理解为一个“先理解，再生成”的系统。模型由两部分组成：左边的encoder负责把输入序列转化成一个包含完整上下文信息的表示，右边的decoder在这个理解的基础上一步步生成输出。最上面接一个线性层和softmax，用来把模型的内部表示转成词的概率，从而预测下一个token。整个结构的核心思想是，用attention来替代传统RNN的顺序处理，让模型可以在一开始就看到全局信息。

Encoder：你说了什么？ → 把输入变成“语义理解的向量”

Decoder：我该怎么说？ → 把这些向量转换成“人类语言”

1. Query、Key、Value Vectors 在 Transformer 里的作用

In a Transformer, Query, Key, and Value vectors enable the attention mechanism to perform a content-based information retrieval process. The Query represents what a token is looking for, the Key represents what each token offers, and the Value contains the actual information. By computing similarity between Query and Keys, the model derives attention weights, which are then used to aggregate Values into a context-aware representation.

在 Transformer 的每一层，每个 token 都会被映射成三个向量：Query（Q）、Key（K）和 Value（V），用于计算它与其他 token 的相关性，从而实现“关注重点词”的机制。

它们在 Transformer 中的位置：

在 Multi-Head Self-Attention 中，每个输入向量（token embedding）都会经过三组权重矩阵转换为：

名称	用途	类比（搜索逻辑）
Query (Q)	你想知道什么（“提问”）	关键词
Key (K)	每个词的标签（“特征”）	网页标题
Value (V)	实际信息（“答案”）	网页内容

举例说明：

想象你处理一句话：“She poured water into the cup because it was empty.”
你在处理 “it” 时，Query 是 “it”的向量，它会和所有 Key 做匹配分数，判断“it”最可能指代什么（比如 “cup”），然后用这个分数加权 Value。

工作流程：

输入的每个 token（比如 “I”, “love”, “AI”） → 映射为 Q, K, V 向量

对每对 Q 和所有 K 做“相似度打分”（点积 → softmax）

用这些打分作为权重，对所有 V 向量做加权平均 → 得到 Attention 输出

输出代表该 token 在当前语境下的语义表示

2. Encoder（编码器）结构详解

输入句子首先会被转成向量，然后加上位置信息，因为模型本身不具备顺序感。接着进入多层encoder结构，每一层都会重复同样的逻辑：先通过self-attention，让每一个词都能看到句子中所有其他词，从而建立全局依赖关系，比如一个词的含义会根据上下文被重新调整；然后通过feed forward，对每个词的表示做一次非线性变换，把信息进一步加工和提升表达能力。中间通过残差连接和归一化保证训练稳定。经过多层堆叠之后，encoder输出的不再是原始词的表示，而是已经融合了整个句子语义的上下文表示。

3.Decoder（解码器）结构详解

decoder的输入是已经生成的序列（训练时是shifted的真实序列，推理时是模型自己生成的）。它的每一层比encoder多一个关键步骤。首先是masked self-attention，这一步和encoder类似，但只能看到当前词之前的内容，保证生成是逐步进行的；然后是cross-attention，decoder会利用当前状态去“查询”encoder的输出，从而决定在生成当前词时应该关注输入的哪些部分，这一步实现了输入和输出之间的对齐；最后再经过feed forward，对当前词的表示进行加工。通过多层这样的处理，decoder可以在理解输入的基础上逐步生成完整的输出序列。

4.Feed forward layer

feed forward layer 是一个 position-wise 的全连接网络，作用在每个 token 上且参数共享。在 attention 聚合了上下文信息之后，feed forward 对每个 token 的表示进行非线性变换，从而提升表达能力。attention负责建模token之间的关系，而feed forward负责增强单个token的特征表示，这两者结合构成了Transformer的核心计算单元。

5.multi-head attention

multi-head attention 是对标准 attention 机制的扩展，它通过将输入映射到多个子空间中，并在这些子空间中并行地进行 attention 计算。每一个 head 都可以捕捉不同类型的关系，例如句法关系或语义依赖关系。最后，将所有 head 的输出拼接并进行整合，从而形成更加丰富的表示。这种方式使模型能够从多个视角同时关注信息，相比单一的 attention，显著提升了模型的表达能力。

在句子 “The boy who is playing football is happy” 中，当模型处理第二个 “is” 时，不同的 attention heads 会关注不同的关系，比如有的 head 对齐主语 “boy”，有的关注从句结构或局部语法。通过将这些不同视角的结果组合起来，模型能够形成更全面、更准确的表示，这正是 multi-head attention 提升表达能力的核心原因。

6.masked multi-head attention

masked multi-head attention 是 self-attention 的一种变体，主要用于 Transformer 的 decoder 中。在这个机制里，会引入一个因果掩码（causal mask），用来阻止每个 token 关注未来的位置。这样可以保证模型在生成时是按顺序逐步进行的，只能依赖已经生成的上下文信息。

同时，多头结构（multi-head）依然保留，使模型可以在不同的子空间中捕捉不同类型的依赖关系。而 mask 的作用是强制约束生成顺序，避免在训练过程中出现信息泄露，从而保证模型在实际推理时的正确性。

在生成句子 “I love you” 时，当模型预测 “love”，masked attention 会阻止它看到 “you”，确保它只能依赖 “I”，从而保证生成过程是严格的自回归，而不是利用未来信息作弊。

常见 LLM 类型对比（核心理解）

LLM 类型	架构结构	代表模型	主要用途	金融应用适配性
Decoder-only	仅使用 Transformer 的解码器部分	GPT 系列（GPT-2/3/4）、LLaMA、Mistral	文本生成、对话、摘要、代码生成	✅ 高频使用（如 ChatBot, 自动报告生成）
Encoder-only	仅使用 Transformer 的编码器部分	BERT、RoBERTa、DistilBERT	文本理解、分类、NER、相似度匹配	✅ 结构轻巧，适合构建金融知识检索/分类器
Encoder-Decoder	编码器+解码器组合	T5、FLAN-T5、BART	翻译、问答、摘要（输入到输出任务）	⚠️ 模型较大，适合结构化摘要/RAG问答

1. Decoder-only LLMs（如 GPT 系列）

知识点	内容
架构特点	单向生成（从左到右），适合续写、对话
应用场景	对话系统、自动生成摘要、代码生成、报告撰写
代表模型	GPT-2, GPT-3, GPT-4, GPT-4-turbo, ChatGPT, Claude, Mistral
优点	强大生成能力，能处理上下文推理、开放式任务
缺点	无法并行理解输入，不适合分类/相似度任务
面试常问	“Explain why GPT is decoder-only.”“How does GPT handle token prediction?”

2. Encoder-only LLMs（如 BERT 系列）

知识点	内容
架构特点	双向编码，适合理解上下文中每个词的意义
应用场景	情感分析、命名实体识别（NER）、文本分类、相似度计算
代表模型	BERT, RoBERTa, DistilBERT
优点	精度高，轻量，适合微调
缺点	不能用于生成文本，不能回答开放式问题
面试常问	“How is BERT different from GPT?”“Why is BERT better for classification tasks?”

3. Encoder-Decoder LLMs（如 T5、FLAN-T5）

知识点	内容
架构特点	使用 encoder 编码输入 → decoder 生成输出
应用场景	翻译、问答、结构化摘要生成
代表模型	T5, FLAN-T5, BART, mT5
优点	输入输出灵活、能处理复杂任务
缺点	参数量大、训练和推理成本高
面试常问	“What is the advantage of encoder-decoder models?”“Explain how T5 reframes all tasks as text-to-text.”

训练与推理机制简述

训练过程 = 给模型“读书 + 做题”

用海量文本（书籍、网页、代码等）喂给模型学习语言模式

训练目标是：预测下一个词

看到“股票市场大跌，投资者感到____”

模型猜：“恐慌” 或 “焦虑”

这种方式叫 Self-supervised learning（自监督学习）

它为什么会“变聪明”？

因为：

读的文本多（超过你一生能看完的量）

参数多（GPT-4 ≈ 数万亿神经元）

模型架构强大（Transformer + Attention）

1.大框架一览

阶段	目标	是否更新模型参数	举例
✅ 预训练（Pretraining）	学习通用语言知识	✔️ 会更新	GPT-3 用 45TB 语料学语言规律
✅ 微调（Finetuning）	适应特定任务或领域	✔️ 会更新	FinGPT 在金融数据上微调 GPT
✅ 推理（Inference）	使用模型生成结果	❌ 不更新，仅使用	给定 prompt，生成回答或摘要

2.预训练（Pretraining）

🎯 目的：

让模型掌握语言的基本规律、常识、世界知识。

通常在海量文本上进行（维基百科、新闻、书籍、网页等）。

🧠 特点：

无监督或自监督（不需要人工标注）。

GPT 使用自回归方式预测下一个词。

BERT 使用遮盖预测（Masked LM）训练。

🔧 工程提示：

模型越大、数据越多、训练时间越长，越可能学得更好，但成本高。

通常由 OpenAI、Google、Meta 训练大型基座模型。

3. 微调（Finetuning）

🎯 目的：

在特定任务或领域（如金融、医疗、法律）上进一步优化模型行为。

📌 两种常见方式：

类型	说明	举例
任务微调（Task Finetuning）	用于分类、摘要、QA 等任务	情感分类、NER
指令微调（Instruction Tuning）	让模型理解 prompt 中的“意图”	“请总结这段话” → 输出摘要

🔧 实践技巧：

若资源有限，可用轻量方案如 LoRA / PEFT（参数高效微调）只更新少量参数。

微调后模型更符合业务语境，但可能会“过拟合”领域数据。

4.推理（Inference）

🎯 目的：

使用训练好的模型，在实际任务中生成答案、摘要或预测结果。

🛠️ 推理行为：

步骤	说明
1. 提供输入（Prompt）	如：“What are the main risk factors in this report?”
2. 模型按 token 逐步生成下一个 token	使用 Transformer + Softmax 选出最可能词
3. 使用 decoding 策略控制输出	Greedy / Beam Search / Top-k / Top-p / Temperature
4. 拼接所有输出 → 得到最终文本结果	ㅤ

5.推理中的控制参数（理解很重要）

参数	作用	推荐使用场景
Temperature	控制输出的“随机性”	值越低越确定，越高越发散
Top-k Sampling	从前 k 个最可能词中采样	增加创造性，减少重复性
Top-p (nucleus) Sampling	从累计概率前 p% 的词中采样	控制生成多样性
Max Tokens	限制输出长度	控制成本与逻辑完整性

大模型的风险与挑战？

幻觉（hallucination）：一本正经地胡说八道

偏见与歧视：训练数据中的人类偏见会传染给模型

数据泄露：训练中可能记住敏感信息

计算成本高：训练一次要上百万美元

监管滞后：模型能力超出管控能力

GPT 是怎么生成语言的？

Step-by-Step：GPT 的生成流程图解

你输入一句话 →

1. 转换成 Token（编码形式）

2. 每个 Token 变成向量（Embedding）

3. 向量进入 Transformer（多层 Decoder）

4. 使用 Masked Self-Attention 看“前文”

5. 输出概率分布 → 选出下一个词

6. 加入上下文，重复步骤 3～5

✅ GPT 是「Autoregressive」模型

只往右边生成

每个词都基于已生成的前文

不会“回头修改”，这叫不可回溯

GPT 的“语言感”来自哪里？

GPT 在训练时读了全世界的文本，比如：

书籍

维基百科

新闻

编程代码

Reddit / StackOverflow

训练目标：

给定前面一句话，让模型预测下一个词是谁

这叫 “语言建模任务（Language Modeling）”

举个例子演示

你输入：

“The Federal Reserve announced”

第一步：Token 分割

[“The”, “Federal”, “Reserve”, “announced”]

第二步：预测下一个词的概率分布

Token	概率
a	21.3%
new	19.5%
today	11.1%
an	8.6%

→ 模型选择 “a”

继续预测：

“The Federal Reserve announced a”

接下来模型可能输出：

“rate”, “policy”, “plan”…

直到你告诉它“停”或它遇到终止标记。

GPT 不理解含义，它是靠统计 + 注意力机制

但因为它：

看过太多语言组合

拥有强大的上下文建模能力

注意力机制能理解“谁影响谁”

它就能在输出时给你看起来合理又流畅的回答。