
上QQ阅读APP看书,第一时间看更新
6.2.1 问题定义
给出一个训练集,其中
,对于二分类问题有yi∈{+1,−1},对于回归问题有
。我们将一个凸的损失函数记为l(u,y)(如表6-1,常用的有Square Loss、Hinge Loss和Logistic Loss,本文使用的是Square Loss)。给定一个正定核函数(Positive Definite Kernel,PD Kernel)k(·,·),以及与它相关且唯一的再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)
,核方法常常用来找到一个预测函数
来解决下面的优化问题:

表6-1 二分类(BC)和回归(R)问题中常用的损失函数

其中,c>0是正则项参数。式(6.1)是一个凸优化问题。凸优化问题有一个重要的特性:所有局部最优解都是全局最优解。这个特性可以保证我们在求解时不会陷入局部最优解,即如果找到了问题的一个局部最优解,则它一定也是全局最优解,这极大地简化了问题的求解。因为这样的性质,我们在求凸优化中的最大/最小化问题时,就可以直接寻找函数梯度为0的点。然而对有些复杂的函数直接求解梯度为0的点比较困难。我们一般用梯度下降法(Gradient Descent,GD)来逐步逼近最优解。因为GD的每次训练需要使用样本集中的所有样本来计算整个凸优化问题的梯度,由此引入了额外的计算成本,所以对于一些大规模数据集,我们也可以随机选取一小批次样本来近似整个凸优化问题的梯度,即采用随机梯度下降法(Stochastic Gradient Descent,SGD)来优化问题。