信息密度
这段输入里包含了多少事实线索、背景信息和可供推理的内容。
在进入 Embedding、Attention 和 Transformer 之前,先把神经网络这件事看清楚。它并不是“神秘黑盒”,而是把输入特征做加权求和、加上偏置、经过激活函数,再送进下一层继续重组。真正让它有表达力的关键,是中间层和非线性。
先选一个任务场景,再拖动输入特征。这个教学版网络会把 3 个输入特征压进隐藏层,再输出 3 类倾向。目标不是模拟真实大模型参数,而是把“特征重组”这件事看明白。
输入层不做理解,只负责把当前样本的特征值交给下一层。
隐藏层会把原始特征重新组合成更有用的中间模式,比如“事实探测器”或“任务探测器”。
输出层读取隐藏层激活,把它们变成更接近最终任务判断的概率分布。
如果每一层都只有线性变换,那么无论你叠多少层,整体仍然等价于一次更大的线性变换。真正让网络能表达复杂模式的,是 ReLU、tanh、sigmoid 这类激活函数带来的“折弯能力”。
下面的左卡把中间层当成“没有激活函数”的纯线性叠加,右卡则保留非线性。比较两边的输出分布,能更直观地看出隐藏层为什么不能只当作多做几次矩阵乘法。
“只满足其一就激活”是经典的非线性模式。线性模型无法同时把 (1,0) 和 (0,1) 判成高分、又把 (0,0) 和 (1,1) 判成低分。
输入层只是把样本特征送进来。真正的“模式形成”发生在隐藏层,因为那里开始出现加权组合和激活。
隐藏层不会直接输出“最终答案”,它更像是在逐层提炼:哪些信息更重要、哪些组合应该被强调。
没有非线性,再深的网络也只是更大的线性映射;有了非线性,网络才开始具备拟合复杂模式的能力。