数学可视化列表

条件概率分布 (Conditional Distribution)

在已知 $$Y=y$$ 的条件下，$$X$$ 的概率表现

1. 理论定义

设 $$(X, Y)$$ 的联合密度函数为 $$f(x, y)$$，$$Y$$ 的边缘密度函数为 $$f_Y(y)$$。

条件概率密度函数:

$$f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)}$$

注：仅在 $$f_Y(y) > 0$$ 时有定义

物理意义： 当我们固定 $$Y = y_0$$ 时，条件分布描述了在联合分布曲面上沿 $$y=y_0$$ 直线切下的“剖面”，并经缩放使该剖面面积为 1。

通俗介绍： 条件分布其实就是“缩小范围后的新概率”。条件分布就是告诉你，在某个特定条件下，事情发生的可能性会如何变化。

应用：
精准推荐：在已知用户历史行为和画像（条件）下，预测其点击或购买某商品的概率，是电商和内容平台的核心引擎。
风险评估：在给定借款人收入、负债、历史信用（条件）下，计算其贷款违约的概率，是金融信贷审批的基础。
医疗诊断：在已知患者症状、年龄、检测指标（条件）下，推断其患某种疾病的概率，辅助医生进行鉴别诊断。
机器预测：在给定历史数据和当前状态（条件）下，预测设备未来发生故障的概率，是实现预测性维护的关键。
自然语言处理：在已知上文（条件）下，预测下一个最可能出现的词或句，是驱动语言模型、机器翻译和智能聊天的基本原理。

2. 正态分布下的结论

若 $$(X, Y) \sim N(\mu_x, \mu_y, \sigma_x^2, \sigma_y^2, \rho)$$，则已知 $$Y=y$$ 时：

$$X|Y=y \sim N\left(\mu_x + \rho\frac{\sigma_x}{\sigma_y}(y-\mu_y), \sigma_x^2(1-\rho^2)\right)$$

观察：条件均值随 $$y$$ 线性变化，而条件方差减小。

蓝色：条件分布密度 $f_{X|Y}(x|y)$ 灰色虚线：边缘分布 $f_X(x)$ (对比参考)

条件均值 (Regression)

0.00

条件标准差

0.00