一步一步来
先用路线图建立全局地图,再进入单页交互。这样学到 Attention、RAG、Agent 时不会觉得它们是散碎名词。
这是一套从零开始理解大模型技术的系列化交互课程。它的目标不是堆术语,而是把 Token、向量、Tokenizer、Attention、QKV、Transformer 和推理策略做成可观察、可操作、可逐步学习的 HTML 页面。
先用路线图建立全局地图,再进入单页交互。这样学到 Attention、RAG、Agent 时不会觉得它们是散碎名词。
每张页面尽量围绕一个核心问题展开,避免把多个新概念堆在同一页里。
尽量通过热力图、分步播放、参数滑块、矩阵高亮和对比卡片让用户自己观察变化,而不是只读文字。
如果你是第一次进入这个系列,建议先从下面这些关键页面开始。页面脚本加载完成后,这里会自动展开全部已上线课程。
先建立全景地图,分清 AI、机器学习、深度学习和大模型分别位于哪里。
理解语言为什么要被切成 token,以及 token 为什么还要被映射成向量。
为 Embedding、线性层、QK 点积打下可视化数学基础。
用 rank、shape、切片和常见操作,把张量从抽象名词变成可以直接观察和操作的对象。
理解为什么模型看到的不是词,而是更稳定的 token 序列。
理解一个 token 为什么需要看其他 token,而不是只看自己。
直接体验 Q、K、V、打分矩阵和最终输出,快速把注意力机制看成可以操作的过程。
对比单头混合视角与多头分工,再看 Concat + W^O 如何把不同 Head 的结果重新融合。
把“保留主干、整理尺度、再加工特征”拆成可操作实验,补齐 Transformer Block 里注意力之外的直觉。
从系统视角理解为什么模型常常要先查资料再回答,以及检索如何补强生成质量。
把“会回答”升级到“会持续完成任务”,看懂 Agent 为什么是一个循环系统。
能点击的卡片代表当前已经可直接访问的页面;灰色卡片表示已经排进路线图,但还在持续建设中。页面脚本加载后,这里会自动切换成完整的分阶段课程列表。
先建立整体地图,再理解文本是怎样一步步变成模型可计算的表示。
AI、大模型在整个技术谱系中的位置是什么?文本为什么要变成 Token、向量、矩阵和张量?
这一段负责把“基础表示”衔接到“模型如何学出语义结构”,避免后面直接跳进 Transformer 时断层。
神经网络如何把原始特征重新组合成隐藏表示?Embedding 为什么能把相近概念放近?语言模型训练到底在优化什么?
这是整个系列的技术心脏,集中讲清 Tokenizer、Attention、QKV、因果 Mask、位置编码、多头注意力、Residual / LayerNorm / FFN 和 Transformer Block。
模型是如何看待 token 之间的关系的?为什么 decoder 不能偷看未来?顺序信息怎样被显式注入?多个 Head 为什么更完整?注意力之外那一半又是怎样保留主干并继续加工表示的?
理解模型是怎样被训练出来的,以及为什么同一个模型会因为解码参数不同而表现差异很大。
从预训练到对齐,模型能力如何逐步成形?温度、Top-k 和 Top-p 又是怎么影响输出风格的?
把单个模型能力放进真实产品系统中,看懂 RAG、Tool Use、Agent、安全、评测与部署。
一个“可用的大模型系统”不只是一段对话,还需要检索、工具、评测、安全边界和工程权衡。
先知道自己到底要学哪几个层次,再去学具体机制。
搞清文本如何变成 token、向量、矩阵和张量。
补上神经网络、Embedding 和语言模型目标这层直觉,再进入 Transformer。
进入 Attention、QKV、因果 Mask、位置编码、多头注意力、Residual / LayerNorm / FFN 和 Block 结构。
最后看采样、RAG、工具调用、安全与部署。