2-1 分析为什么平方损失函数不适用于分类问题?
损失函数是一个非负实数,用来量化模型预测和真实标签之间的差异。我们一般会用损失函数来进行参数的优化,当构建了不连续离散导数为0的函数时,这对模型不能很好地评估。直观上,对特定的分类问题,平方差的损失有上限(所有标签都错,损失值是一个有效值),但交叉熵则可以用整个非负域来反映优化程度的程度。从本质上看,平方差的意义和交叉熵的意义不一样。概率理解上,平方损失函数意味着模型的输出是以预测值为均值的高斯分布,损失函数是在这个预测分布下真实值的似然度,softmax 损失意味着真实标签的似然度。
在二分类问题中y = { + 1 , − 1 }在C 分类问题中y = { 1 , 2 , 3 , ⋅ ⋅ ⋅ , C }。可以看出分类问题输出的结果为离散的值。分类问题中的标签,是没有连续的概念的。每个标签之间的距离也是没有实际意义的,所以预测值和标签两个向量之间的平方差这个值不能反应分类这个问题的优化程度。比如分类 1,2,3, 真实分类是1, 而被分类到2和3错误程度应该是一样的,但是明显当我们预测到2的时候是损失函数的值为1/2而预测到3的时候损失函数为2,这里再相同的结果下却给出了不同的值,这对我们优化参数产生了误导。至于分类问题我们一般采取交叉熵损失函数(Cross-Entropy Loss Function )来进行评估。
2-2 在线性回归中,如果我们给每个样本()()(,)n n x y 赋予一个权重()n r ,
经验风险函数为()()
()21
1()()2N n n T n n R w r y w x ==−∑,计算其最优参数*w ,并
分析权重()n r 的作用.
答:其实就是求一下最优参数*w ,即导数为0,具体如下:
首先,取权重的对角矩阵:()(),,,n P diag r x y w =均以向量(矩阵)表示,则原式为:21
()||||2
T R P Y X Ω=
−Ω ,进行求导:()0T R XP Y X ∂=−−Ω=∂Ω,解得:*1()T XPX XPY −Ω=,相比于没有P 时的Ω:1()T withoutP XX XY −Ω=,可以简单理解为()n r 的存在为每个样本增加了权重,权重大的对最优值ω的影响也更大。我们给每一个样本赋予权重r (n),在局部数据进行优化的时候我们对感兴趣的局部
设置权重往往会大一点以用来削弱距离较远的数据带来的影响。倘若在全局进行优化的时候我们往往会给予样本以相差不大的权重;这里权重是对数据处理进行的一次人为的标注,以达到我们所期望的最优参数解。
2-3 证明在线性回归中,如果样本数量N 小于特征数量D +1,则XX T 的秩最大为N .
由线性代数知识可知矩阵与其转置相乘的秩等于矩阵本身的秩,即
()() T rank XX rank X =。而矩阵X 的秩必定满足条件:()() 1,rank X min D N ≤+,也就是说X 的秩必须小于或等于X 的行数和列数中的最小值。而如果1N D <+的话,那么必定有rank(X)<N 。故此,T XX 的秩最大为N 。其实如果特征数大于样本数的话,即使是常用的优化方法都无法去拟合数据,这种情况我们称之为拟合方程是欠定的。换句话说,这种情况其实就是线性方程组的未知数个数大于方程个数,不存在唯一非零解。
2-4 在线性回归中,验证岭回归的解为结构风险最小化准则下的最小二乘法估计,见公式(2.44).
结构风险最小化准则下的目标函数为:2211
()||||||||22
T R w y X w w λ=−+。因此可知,
()
()T R w X y X w w w
λ∂=−−+∂。令
()0R w w ∂=∂ ,则()0T X y X w w λ−−+=,则T XX w w Xy λ+=,则()T XX I w Xy λ+=。因此1()T w XX I Xy λ−=+。
2-5 在线性回归中,若假设标签()~,T y N w x β,并用最大似然估计来优化参数时,验证最优参数为公式(2.50)的解.
解:常数对w 求导为
0,若已知标签()~,T y N w x β,则
()
()
2
1
log (|;,)log (;,)N
n T
n n P y X w N y w x ββ==
∑()()2
2
1()))2n T n N
n y w x σ=−=−∑,
进而()()2
2
1
1()log(exp())2n T n N
N
n n y w x σ==−=−∑∑。至此为止,加号的前面部分只是一个常数,对w 求导不需要管这部分,只看后面就行。后半部分,如果我
们把log 换成ln ,则变成()()2
2
1
()2n T n N
n y w x σ=−−∑,22σ−是个常数给它提出来。至此,最大似然函数对w 求导的函数又变成了22
1||||2T y X w σ−−。至此,与最小二乘
法对w 求导的函数已有神似,即,
()()2
21
2
()log (|;,)21
||||2                                                            ()
n T n N
n T T y w x p y X w w w
y X w w
X y X w σσ=−∂−
∂=
∂∂∂−=∂=−−∑
()
R w w
∂∂为0,则:1()ML T w XX Xy −= 2-6 假设有N 个样本()()()12,,..., N x x x 服从正态分布()2, N μσ,其中μ未知. (1)使用最大似然估计来求解最优参数ML μ. (2)若参数μ为随机变量,并服从正态分布()200,N μσ,使用最大后验估计来求解最优参数MAP μ.
(1)因为(1)(2)(),,...,N x x x 服从正态分布2(,)N μσ
所以2
2
()()}2x p x μσ−=−
1
1
221
2
12
1
arg max log ()
arg max log ()
arg max log ()
()        =arg max )2        arg max ()        arg min ()MLE N
i i N
i i N
i i N
i i N
i i P X p x p x x x x μ
μ
μ
μμ
μ
μμσμμ========−−=−−=−∏∑∑∑∑ 21
11
1
()0      ()0
1      N
i i N
i i N i i N
MLE
i
i x x x N x N μμμμ
μ====∂−=∂−===∑∑∑∑
(2)使用最大后验估计MAP
1
1arg max log (|)
(|)()        arg max log
()
arg max log (|)()        arg max log (|)log ()
arg max log (|)log ()
arg max log (|)log ()
MAP N
i i N
i i P X P X P P X P X P P X P P x P P x P μ
μμ
μ
μ
μ
μμμμμμμμμμμμ======+=+=+∏
∑2202210220221
022
02
2
1
0()()  arg max })})22()()        arg max 22()()
arg min 22N
i i N
i i N
i i x x x μμμ
μμμσσμμμσσμμμσσ===−−=−+−−−=−−−−=+∑∑∑
22
0221002
2
10
02
2221
001
02
2
22
01
2202
2
0()()022()
()
01
(
)            1
N i i N
i i N i
i N
i
i N i
i MAP
x x x N x
N x
N
μμμμσσμμμσσμμ
μ
σσσσμμσσσσμσσμ
σσ=====−−∂+=∂−−−+
=−+
+
−=+
=+
+=
+
∑∑
∑∑
2-7 在习题2-6中,证明当N →∞时,最大后验估计趋向于最大似然估计.
2
2
20
1
01
22
02
2
01
1
1
N
N
i
i i MAP i N正则化是结构风险最小化策略的实现
MLE
i
i x x N
N x
N
μσ
σ
μσμσσσσμ
===++=
=
++
=∑∑∑
当N →∞时,MAP μ近似等于MLE μ,因为其他数都为常数:
22
20
1
1
222
1
00
1lim lim lim                    N
N
i i
N
MAP
i i N N N i i MLE
x x
x N N N
σ
σ
μσ
μ
σσσμ==→∞→∞
→∞
=+=≈=+=∑∑∑
2-8 验证公式(2.59)
要验证的公式为:*~(|)()[]r y p y x f x E y = 证明:模型()f x 的期望错误为:
2(,)~(,)()[(())]r x y p x y R f E y f x =− 引入条件期望的公式:
22[()|]()
[()|]()[|]E f x x f x E yf x x f x E y x ==
当期望错误为0时即得到最优*f
2(,)~(,)22
2
22()[(())]
[[(())|]]
[[|][()|][2()|]]        [[|]()2()[|]]
r
x y p
x y R f E y f x E E y f x x E E y x E f x x E yf x x E E y x f x f x E y x =−=−=+−=+−
引入Jensen 不等式:[()]([])E f x f E x ≥,则:22[|][|]E y x E y x ≥,所以:
222()[[|]()2()[|]]\        [([|]())]
R f E E y x f x f x E y x E E y x f x ≥+−=−≥

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。