Page 04 · SimLabs LLM Visual

神经网络基础：从线性到非线性

在进入 Embedding、Attention 和 Transformer 之前，先把神经网络这件事看清楚。它并不是“神秘黑盒”，而是把输入特征做加权求和、加上偏置、经过激活函数，再送进下一层继续重组。真正让它有表达力的关键，是中间层和非线性。

返回系列首页回看矩阵基础

看懂加权求和理解隐藏层在做什么抓住非线性的必要性

先跑一个最小前馈神经网络

先选一个任务场景，再拖动输入特征。这个教学版网络会把 3 个输入特征压进隐藏层，再输出 3 类倾向。目标不是模拟真实大模型参数，而是把“特征重组”这件事看明白。

信息密度

这段输入里包含了多少事实线索、背景信息和可供推理的内容。

当前值0.82

情绪强度

这段输入是否带着明显情绪，或者更需要模型偏向安抚、解释和语气控制。

当前值0.18

行动导向

这段输入更像是在请求执行动作、调用工具、输出清单或完成任务。

当前值0.28

输入层

输入层不做理解，只负责把当前样本的特征值交给下一层。

隐藏层

隐藏层会把原始特征重新组合成更有用的中间模式，比如“事实探测器”或“任务探测器”。

输出层

输出层读取隐藏层激活，把它们变成更接近最终任务判断的概率分布。

先抓住一句话： 神经网络并不是在“凭空思考”，而是在一层层地把输入特征重新组合。隐藏层学到的，不是最终答案，而是更适合下一步使用的中间表示。

为什么非线性是分水岭

如果每一层都只有线性变换，那么无论你叠多少层，整体仍然等价于一次更大的线性变换。真正让网络能表达复杂模式的，是 ReLU、tanh、sigmoid 这类激活函数带来的“折弯能力”。

同一组输入，线性和非线性会怎么看

下面的左卡把中间层当成“没有激活函数”的纯线性叠加，右卡则保留非线性。比较两边的输出分布，能更直观地看出隐藏层为什么不能只当作多做几次矩阵乘法。

XOR 小实验

“只满足其一就激活”是经典的非线性模式。线性模型无法同时把 (1,0) 和 (0,1) 判成高分、又把 (0,0) 和 (1,1) 判成低分。

一句话理解非线性： 线性层负责“重新混合信息”，激活函数负责“决定什么时候触发某种模式”。少了第二步，网络就很难学出真正弯曲、分段和条件性的规则。

学完这一页，最好记住三件事

输入层不是理解层

输入层只是把样本特征送进来。真正的“模式形成”发生在隐藏层，因为那里开始出现加权组合和激活。

隐藏层学的是中间表示

隐藏层不会直接输出“最终答案”，它更像是在逐层提炼：哪些信息更重要、哪些组合应该被强调。