跳转至

关于二分类问题中两种标签体系下逻辑斯谛回归损失函数的等价性证明

约 1540 个字 预计阅读时间 5 分钟

主要是老师要求让我顺手写一个Note,于是有了这篇小笔记

问题陈述

在二分类问题中,我们通常采用两种标签体系:\(y \in \{0, 1\}\)\(y' \in \{-1, +1\}\)。此Note旨在严格证明:对于逻辑斯谛回归(Logistic Regression)模型,基于这两种不同标签体系定义的负对数似然损失函数在本质上是完全等价的。我们将首先证明单个样本的损失函数等价(见引理1),进而证明基于经验风险最小化(ERM)的整体优化目标函数完全等价,因此最终求解出的模型参数\(\theta\)是完全相同的(见定理1)。


符号与基础设定

为保证清晰,我们首先统一符号:

  • \(x_i\) 表示第 \(i\) 个样本的特征向量。
  • \(s_i = \theta^T x_i\) 为模型对样本 \(x_i\) 的原始线性输出(logit)。
  • 使用Sigmoid函数 \(\sigma(s) = \frac{1}{1 + \exp(-s)}\) 将原始输出映射为概率。
  • 我们有两个标签体系:
    • 体系一: \(y_i \in \{0, 1\}\)
    • 体系二: \(y'_i \in \{-1, +1\}\)

体系一:\(y_i \in \{0, 1\}\) 下的损失函数

在此体系下,模型的预测概率被定义为:

\[P(y_i=1 | s_i) = \sigma(s_i) = \frac{1}{1 + \exp(-s_i)}\]
\[P(y_i=0 | s_i) = 1 - \sigma(s_i) = \frac{1}{1 + \exp(s_i)}\]

为了方便计算,我们可以将这两个概率用一个统一的伯努利分布表达式表示:

\[P(y_i | s_i) = [\sigma(s_i)]^{y_i} [1 - \sigma(s_i)]^{1-y_i}\]

该模型的损失函数通常由负对数似然(Negative Log-Likelihood)函数给出。对于单个样本 \(i\),其损失 \(L_1\) 为:

\[L_1(y_i, s_i) = -\log P(y_i | s_i) = -[y_i \log(\sigma(s_i)) + (1-y_i)\log(1-\sigma(s_i))]\]

\(\sigma(s_i)\) 的定义代入并化简,最终形式为:

\[ L_1(y_i, s_i) = \log(1+\exp(s_i)) - y_i s_i \]

体系二:\(y'_i \in \{-1, +1\}\) 下的损失函数

在此体系下,一个非常巧妙的技巧是将概率统一表示为 \(P(y'_i | s_i) = \sigma(y'_i s_i)\)
* 当 \(y'_i = +1\) 时: \(P(y'_i=+1 | s_i) = \sigma(s_i)\)
* 当 \(y'_i = -1\) 时: \(P(y'_i=-1 | s_i) = \sigma(-s_i) = \frac{1}{1+\exp(s_i)}\)

同样,我们基于负对数似然来定义单个样本的损失函数 \(L_2\)

\[L_2(y'_i, s_i) = -\log P(y'_i | s_i) = -\log(\sigma(y'_i s_i))\]

代入Sigmoid函数的定义并化简:

\[ \begin{aligned} L_2(y'_i, s_i) &= -\log\left(\frac{1}{1+\exp(-y'_i s_i)}\right) \\ &= \log(1+\exp(-y'_i s_i)) \end{aligned} \]

这个形式非常简洁。


等价性证明

现在,我们来证明 \(L_1(y_i, s_i)\)\(L_2(y'_i, s_i)\) 是等价的。这两种标签体系可以通过一个简单的线性变换进行转换:

\[y'_i = 2y_i - 1\]

反之,\(y_i = \frac{y'_i + 1}{2}\)

我们通过分情况讨论来证明,在标签一一对应的情况下,两种损失函数的计算结果完全相同。

引理1

对于任意样本\(x_{i}\)​,其在两种标签体系下的标签\(y_i ​\in \{0,1\}\)\(y_{i}'​\in\{−1,+1\}\) 满足线性变换关系\(y_{i}'​=2y_i​−1\)。那么,为该样本定义的两种损失函数\(L_1​(y_i​,s_i​)\)\(L_2​(y_{i}',s_{i}'​)\)的计算结果完全相等。

Proof.

情况一:\(y_i = 1 \iff y'_i = +1\)

计算 \(L_1\)

\[L_1(1, s_i) = \log(1+\exp(s_i)) - (1) \cdot s_i = \log(1+\exp(-s_i))\]

计算 \(L_2\)

\[L_2(+1, s_i) = \log(1+\exp(-(+1) \cdot s_i)) = \log(1+\exp(-s_i))\]

在此情况下,\(L_1 = L_2\)

情况二:\(y_i = 0 \iff y'_i = -1\)

计算 \(L_1\)

\[L_1(0, s_i) = \log(1+\exp(s_i)) - (0) \cdot s_i = \log(1+\exp(s_i))\]

计算 \(L_2\)

\[L_2(-1, s_i) = \log(1+\exp(-(-1) \cdot s_i)) = \log(1+\exp(s_i))\]

在此情况下,\(L_1 = L_2\)


整体优化问题与参数估计的等价性

定理1

对于逻辑斯谛回归模型,分别在 y∈{0,1} 和 y′∈{−1,+1} 两种标签体系下,其基于经验风险最小化(ERM)原则所构建的整体优化目标函数是等价的。因此,通过优化求解得到的模型最优参数估计 θ^ 是完全相同的。

Proof.

在逻辑斯谛回归中,我们的目标是找到参数 θ 以最小化在整个数据集上的平均损失,即经验风险。

体系一的整体目标函数\(J_1​(\theta)\)为:

\[J_1(\theta) = \frac{1}{n}\sum_{i=1}^{n} L_1(y_i, \theta^T x_i) = \frac{1}{n}\sum_{i=1}^{n} \left[ \log(1+\exp(\theta^T x_i)) - y_i (\theta^T x_i) \right]\]

其最优参数\(\hat{\theta}_1\)为:

\[\hat{\theta}_1 = \arg\min_{\theta} J_1(\theta)\]

体系二 的整体目标函数\(J_2​(\theta)\)为:

\[J_2(\theta) = \frac{1}{n}\sum_{i=1}^{n} L_2(y'_i, \theta^T x_i) = \frac{1}{n}\sum_{i=1}^{n} \log(1+\exp(-y'_i (\theta^T x_i)))\]

其最优参数\(\hat{\theta}_2\)为:

\[\hat{\theta}_2 = \arg\min_{\theta} J_2(\theta)\]

根据引理1,对于每一个样本\(i\),其损失函数就是相等的,即:

\[L_1(y_i, \theta^T x_i) = L_2(y'_i, \theta^T x_i)\]

因此,两个整体目标函数中求和的每一项都完全对应相等。这直接导出两个整体目标函数对于任意\(\theta\)都是恒等的:

\[J_1(\theta) = J_2(\theta), \quad \forall \theta\]

由于两个优化问题有着完全相同的目标函数,它们必然拥有相同的最优解。即:

\[\hat{\theta}_1 = \hat{\theta}_2\]

定理得证。

最终结论

通过以上证明,我们得出结论:在逻辑斯谛回归中,无论选择\(y \in \{0, 1\}\)还是\(y' \in \{-1, +1\}\)作为标签体系,其最终的优化目标函数是完全一致的。这意味着,两种标签体系的选择不会对模型参数的学习结果产生任何影响,最终会得到完全相同的模型。

因此,选择哪种标签形式,仅仅是出于数学表达、推导或计算上的便利与习惯

评论