)
摘要相对熵KL散度Kullback-Leibler Divergence是信息论、机器学习与概率统计领域的核心度量用于量化两个概率分布之间的差异。非负性是相对熵最基础且最重要的性质是其能够作为分布差异度量的核心前提。本文首先给出离散型与连续型相对熵的严格数学定义基于Jensen不等式完成相对熵非负性的完整推导同时分析相对熵等于零的充要条件并阐述该性质在模型训练、概率估计等场景中的应用价值。关键词相对熵KL散度Jensen不等式概率分布非负性信息论一、引言在信息论体系中熵用于描述单个概率分布的不确定性而相对熵拓展了熵的定义用于衡量真实概率分布与近似概率分布之间的偏差。不同于欧氏距离相对熵不满足对称性与三角不等式并非严格意义上的距离但恒大于等于0的非负性保证了其度量的有效性。 在深度学习中交叉熵损失的本质源自相对熵的变形模型优化的核心目标就是最小化真实分布与预测分布的相对熵。因此严格证明相对熵的非负性是理解信息论学习、概率模型优化的理论基础。本文分别针对离散概率分布和连续概率分布两种场景完成严谨的数学证明。二、基本预备知识2.1 凸函数与Jensen不等式Jensen不等式是证明相对熵非负性的核心工具本文仅使用离散形式的Jensen不等式若实函数 f(x) 为严格凸函数X 为随机变量E[·] 为数学期望则满足f(E[X]) ≤ E[f(X)]当且仅当随机变量 X 为常量所有取值相等时不等式取等号。本文核心函数负对数函数 -ln x。由二阶导数判定因此 -ln x 在定义域 (0,∞) 上为严格凸函数完全满足Jensen不等式使用条件。2.2 相对熵的定义2.2.1 离散概率分布相对熵 设有限离散样本空间下P(x) 为真实概率分布Q(x) 为近似概率分布满足概率归一性定义离散型相对熵若 Q(x)0 且 P(x)0则相对熵趋于正无穷。2.2.2 连续概率分布相对熵设连续随机变量的概率密度函数分别为 p(x)真实分布、q(x)近似分布满足归一性三、相对熵非负性严格证明3.1 离散分布相对熵非负性证明对离散相对熵公式进行变形根据数学期望定义上式可写为期望形式已知 -ln x 是严格凸函数根据Jensen不等式代入可得即证得等号成立条件由严格凸函数的Jensen不等式等号条件可知当且仅当 Q(x)/P(x)为常量时取等。3.2 连续分布相对熵非负性证明与离散场景证明逻辑一致对连续相对熵变形同理基于严格凸函数 -ln x 的Jensen不等式计算连续型数学期望代入得等号成立条件当且仅当几乎处处 p(x)≡ q(x)即连续概率分布完全重合时相对熵为0。四、性质分析与物理意义4.1 核心性质总结非负性对任意合法概率分布相对熵恒大于等于0零值唯一性相对熵为0是两个概率分布完全等价的充要条件非对称性仅单向度量分布差异。4.2 物理意义相对熵的非负性直观解释了信息损失量恒非负用近似分布 Q 拟合真实分布 P 时必然会产生信息损失不存在拟合后信息增益的情况。拟合偏差越大相对熵数值越大拟合完全精准时无信息损失相对熵为0。五、应用场景机器学习损失函数分类任务的交叉熵损失由相对熵推导而来模型迭代的本质是最小化真实标签分布与预测分布的相对熵非负性保证了损失函数存在下界可稳定收敛概率模型估计最大似然估计、变分推断均以最小化KL散度为优化目标依托非负性确定最优解信息编码优化在信源编码中相对熵用于衡量编码冗余度非负性保证冗余度恒大于等于0。六、结论本文基于Jensen不等式分别完成了离散型与连续型相对熵的非负性完整证明严格推导出相对熵恒大于等于0且仅在两个概率分布完全一致时取零。相对熵的非负性是其作为分布差异度量的核心理论支撑解决了信息偏差量化的合理性问题。该性质贯穿信息论、深度学习、概率统计等多个领域是现代人工智能与信息科学的基础理论之一。参考文献[1] 托马斯·科沃. 信息论基础[M]. 机械工业出版社, 2018.[2] 周志华. 机器学习[M]. 清华大学出版社, 2016.[3] 陈希孺. 概率论与数理统计[M]. 中国科学技术大学出版社, 2020.