机器学习(1)-机器学习的可行性

机器学习真的可行吗
霍夫丁不等式(Hoeffding’s inequality)
单假设函数下的错误率验证
多假设函数下的错误率验证
无限大假设函数下机器学习的可行性
The VC Dimension
Noise and Error
参考文章

机器学习真的可行吗

机器学习只有在加上一定的假设条件才是可行的。例如下图

尽管我们的假设函数g可以完美的预测前五个数据，但是对于后三个数据我们的预测并不一定成立，总能找到一个f，使得$f\approx g$不成立。

在D以外的数据中更接近目标函数似乎是做不到的，只能保证对D有很好的分类效果。机器学习的这种特性被称为No Free Lunch(没有免费午餐)。因此NFL特性告诉我们，我们只有加上一定的假设函数才能保证机器学习算法在D之外的数据集上一定能分类或预测成功。

霍夫丁不等式(Hoeffding’s inequality)

以瓶中小球的概率，我们引出霍夫丁不等式，其中，从罐子中随即取出N个球，作为样本。

这N个球中橙色球的比例为u，罐中橙球的比例为v。

通过霍夫丁不等式推出， u与v接近。

\[\mathbb{P}[\vert v-u\vert > \epsilon ] \leq 2exp(-2\epsilon^2N)\]

我们称$u=v$是PAC(probably approximately correct)的

单假设函数下的错误率验证

将机器学习问题类比到罐子问题，我们也可以得到相同的结论

从罐子中取出的弹球 –> 训练样本D
橙色小球 –> h(x)与f不相等
绿色小球 –> h(x)与f相等

同时，我们定义一些参数:

分类器的实际错误率：$E_{out}(h) =P(h(x) \neq f(x)) = \mathop{\epsilon} \limits_{X \sim P}\left[\left\vert h(x) \neq f(x)\right \vert \right]$。
分类器在抽出样本中的错误率: $E_{in}(h) =P(h(x) \neq f(x)) =\frac{1}{N}\sum \limits_{n=1}^N\left[\left \vert h(x) \neq f(x)\right\vert \right]$。

因此，我们利用霍夫丁不等式，可以得到:

\[\mathbb{P}\left[\left \vert E_{in}(h)-E_{out}(h)\right \vert>\epsilon\right]\le2exp\left(-2\epsilon^2N\right)\]

即这个不等式表明, $E_{in}(h) = E_{out}(h)$也是PAC的。

但是这并不意味着,当$E_{in}(h) \approx E_{out}(h)$的时候，$g\approx f$，因为，这并不能保证$E_{in}(h)$足够小，如果我们的预测的h的错误率很大，这显然不是一个好的选择。所以，我们一般会通过学习算法A，选择最好的h，使$E_{in}(h)$足够小。从而保证$E_{out}(h)$很小。为了得到最小的$E_{in}(h)$，我们添加的验证过程。

多假设函数下的错误率验证

上一个我们仅仅是针对单一的假设h，而且通过霍夫丁不等式可以得出$E_{in}(h) \approx E_{out}(h)$。但是在实际工程中，假设并不仅仅一个，所以，哪怕$E_{in}(h) \neq E_{out}(h)$的概率再小，随着h数量的增加，总有可能出现。

以投硬币为例，150人抛硬币，每人抛5次，其中至少有一个人连续五次都是正面的可能性为:

\[1 - (\frac{31}{32})^{150} > 99\%\]

我们称这个现象为BAD sample，如果我们以正面为$E_{in}(h)$，那么可见$E_{in}(h) = 0$，但他对于真实现象不具有代表性。而这种情况对机器学习的伤害也是巨大的。

那么在机器学习过程中，如果BAD sample的可能性很小，我们也可以在一定程度上保证机器学习的可能性。

我们假设假设函数之间是没有交集的，那么在有限的假设函数下，根据union bound规则。我们可以推导出

所以在有限M个的假设函数，并且N足够大，那么演算法A随即选择的一个g，都有足够的概率保证$E_{in}(h)\approx E_{out}(h)$。因此，我们只需要找到一个g，保证$E_{in} \approx 0$即可。

无限大假设函数下机器学习的可行性

有限个假设函数下，霍夫丁不等式为:

\[\mathbb{P}[\vert E_{in}(g)-E_{out}(g) > \epsilon] \le 2 *M*exp(-2\epsilon^2N)\]

但是我们的推导过程中

\[\mathbb{P}[B_1 \ or \ B_2 ... B_M] \le P[B_1] + P[B_2] + ... +P[B_M]\]

如果$M=\infty$，上面不等式右边的值将会很大，但是这个推导过程中，我们假设了各个假设函数之间没有交集，实际上，很多情况下是有交集的。

因此，如果我们找出交集，将其分为有限个类别。那么也可以保证机器学习的可行性

对于二分类问题，我们的，一个训练样本的结果只有-1和+1，因此最多的分类最多有$2^N$个，但是，随着N的增加，其分类还要小于$2^N$，例如当N=4时，其最多有14类。

我们定义effective(N)为N个点的最多分类情况，那么霍夫丁不等式可以写作

\[\mathbb{P}[\vert E_{in}(g)-E_{out}(g) > \epsilon] \le 2 *effective(N)*exp(-2\epsilon^2N)\]

已知$effective(N) < 2^N$，如果能够保证$effective(N) \ll 2^N$，那么就可以保证右边接近于0。

Effective Number of Hypothesis

再次提出两个参数:

二分类(dichotomy)。就是将空间中的点用一条直线分为正类和负类。dichotomy H就是平面上能将点完全用直线分类的直线种类，在上面可以推知，他最大为$2^N$。我们的研究目标就是使用dichotomy代替M。
成长函数(growth function): 记为$m_H(N)$。对于由N个点组成的不同集合中，某集合对应的dichotomy最大，那么这个dichotomy值就是$m_H(N)$。$m_H(N) = \max\limits_{x_1, x_2, ..x_n\in \chi}\vert H(x_1, x_2, .., x_n)\vert$。

例如