Page 04 · SimLabs LLM Visual

神经网络基础:从线性到非线性

在进入 Embedding、Attention 和 Transformer 之前,先把神经网络这件事看清楚。它并不是“神秘黑盒”,而是把输入特征做加权求和、加上偏置、经过激活函数,再送进下一层继续重组。真正让它有表达力的关键,是中间层和非线性。

看懂加权求和 理解隐藏层在做什么 抓住非线性的必要性

先跑一个最小前馈神经网络

先选一个任务场景,再拖动输入特征。这个教学版网络会把 3 个输入特征压进隐藏层,再输出 3 类倾向。目标不是模拟真实大模型参数,而是把“特征重组”这件事看明白。

信息密度

这段输入里包含了多少事实线索、背景信息和可供推理的内容。

当前值0.82

情绪强度

这段输入是否带着明显情绪,或者更需要模型偏向安抚、解释和语气控制。

当前值0.18

行动导向

这段输入更像是在请求执行动作、调用工具、输出清单或完成任务。

当前值0.28

输入层

输入层不做理解,只负责把当前样本的特征值交给下一层。

隐藏层

隐藏层会把原始特征重新组合成更有用的中间模式,比如“事实探测器”或“任务探测器”。

输出层

输出层读取隐藏层激活,把它们变成更接近最终任务判断的概率分布。

先抓住一句话: 神经网络并不是在“凭空思考”,而是在一层层地把输入特征重新组合。隐藏层学到的,不是最终答案,而是更适合下一步使用的中间表示。

为什么非线性是分水岭

如果每一层都只有线性变换,那么无论你叠多少层,整体仍然等价于一次更大的线性变换。真正让网络能表达复杂模式的,是 ReLU、tanh、sigmoid 这类激活函数带来的“折弯能力”。

同一组输入,线性和非线性会怎么看

下面的左卡把中间层当成“没有激活函数”的纯线性叠加,右卡则保留非线性。比较两边的输出分布,能更直观地看出隐藏层为什么不能只当作多做几次矩阵乘法。

XOR 小实验

“只满足其一就激活”是经典的非线性模式。线性模型无法同时把 (1,0)(0,1) 判成高分、又把 (0,0)(1,1) 判成低分。

一句话理解非线性: 线性层负责“重新混合信息”,激活函数负责“决定什么时候触发某种模式”。少了第二步,网络就很难学出真正弯曲、分段和条件性的规则。

学完这一页,最好记住三件事

输入层不是理解层

输入层只是把样本特征送进来。真正的“模式形成”发生在隐藏层,因为那里开始出现加权组合和激活。

隐藏层学的是中间表示

隐藏层不会直接输出“最终答案”,它更像是在逐层提炼:哪些信息更重要、哪些组合应该被强调。

激活函数决定表达力

没有非线性,再深的网络也只是更大的线性映射;有了非线性,网络才开始具备拟合复杂模式的能力。