小编典典

线性问题和非线性问题之间的区别?点积和内核技巧的本质

algorithm

内核技巧将非线性问题映射为线性问题。

我的问题是:
1.线性问题和非线性问题之间的主要区别是什么?这两种问题的区别背后的直觉是什么?内核技巧如何帮助在非线性问题上使用线性分类器?
2.为什么在两种情况下点积如此重要?

谢谢。


阅读 979

收藏
2020-07-28

共1个答案

小编典典

许多分类器(其中包括线性支持向量机(SVM))只能解决线性可分离的问题,即,可以通过超平面将属于类别1的点与属于类别2的点分开。

在许多情况下,可以通过将变换phi()应用于数据点来解决无法线性分离的问题。据说这种变换是将点变换为 特征空间
。希望是在特征空间中,这些点将是线性可分离的。(注意:这还不是内核技巧……请继续关注。)

可以看出,特征空间的尺寸越高,在该空间中线性可分离的问题的数量就越大。因此,理想地是希望特征空间尽可能地高维。

不幸的是,随着特征空间尺寸的增加,所需的计算量也随之增加。这就是内核技巧的用武之地。许多机器学习算法(包括SVM)都可以用这样的方式制定:它们对数据点执行的唯一操作是两个数据点之间的标量积。(我将用表示x1和x2之间的标量积<x1, x2>。)

如果将点转换为要素空间,则标量乘积现在看起来像这样:

<phi(x1), phi(x2)>

关键的见解是,存在一类称为 内核 的函数,可用于优化此标量积的计算。内核是K(x1, x2)具有以下特性的函数:

K(x1, x2) = <phi(x1), phi(x2)>

对于某些函数phi()。换句话说:我们可以评估低维数据空间(其中x1和x2为“实时”)中的标量积,而不必转换为高维特征空间(其中phi(x1)和phi(x2)为“实时”环境)
”),但我们仍然可以获得转换为高维特征空间的好处。这称为 内核技巧

实际上,许多流行的内核(例如高斯内核)都对应于一个变换phi(),该变换可转换为
无限维 特征空间。内核技巧使我们能够在此空间中计算标量积,而不必显式表示该空间中的点(显然,在内存量有限的计算机上这是不可能的)。

2020-07-28