机器学习理论和定理
创始人
2024-05-10 22:15:30
0

在机器学习中, 有一些非常有名的理论或定理, 对理解机器学习的内在特性非常有帮助. 

1. PAC学习理论

当使用机器学习方法来解决某个特定问题时, 通常靠经验或者多次试验来选择合适的模型、 训练样本数量以及学习算法收敛的速度等. 但是经验判断或多次试验往往成本比较高, 也不太可靠, 因此希望有一套理论能够分析问题难度、 计算模型能力, 为学习算法提供理论保证, 并指导机器学习模型和学习算法的设计. 这就是计算学习理论. 计算学习理论( Computational Learning Theory) 是机器学习的理论基础, 其中最基础的理论就是可能近似正确( Probably Approximately Correct, PAC) 学习理论.

机器学习中一个很关键的问题是期望错误和经验错误之间的差异, 称为泛化错误( Generalization Error).泛化错误可以衡量一个机器学习模型𝑓 是否可以很好地泛化到未知数据.

 

根据大数定律, 当训练集大小|𝒟|趋向于无穷大时, 泛化错误趋向于0, 即经验风险趋近于期望风险.

 

由于我们不知道真实的数据分布 𝑝(𝒙, 𝑦), 也不知道真实的目标函数 𝑔(𝒙),因此期望从有限的训练样本上学习到一个期望错误为0的函数𝑓(𝒙)是不切实际的. 因此, 需要降低对学习算法能力的期望, 只要求学习算法可以以一定的概率学习到一个近似正确的假设, 即PAC 学习( PAC Learning). 一个PAC 可学习( PAC-Learnable) 的算法是指该学习算法能够在多项式时间内从合理数量的训练数据中学习到一个近似正确的𝑓(𝒙).

PAC学习可以分为两部分:
(1) 近似正确( Approximately Correct): 一个假设𝑓 ∈ ℱ 是“近似正确”的, 是指其在泛化错误\mathcal{G}_{\mathcal{D}}小于一个界限\epsilon\epsilon一般为0到\frac{1}{2}之间的数,0 < \epsilon < \frac{1}{2}. 如果\mathcal{G}_{\mathcal{D}}比较大, 说明模型不能用来做正确的“预测”.
(2) 可能( Probably): 一个学习算法𝒜 有“可能”以1 − 𝛿 的概率学习到这
样一个“近似正确”的假设. 𝛿 一般为0到\frac{1}{2}之间的数,0 < \delta < \frac{1}{2}

PAC学习可以下面公式描述:

其中𝜖,𝛿是和样本数量𝑁以及假设空间ℱ相关的变量.如果固定𝜖,𝛿,可以反过来计算出需要的样本数量

其中|ℱ|为假设空间的大小. 从上面公式可以看出, 模型越复杂, 即假设空间ℱ 越大, 模型的泛化能力越差. 要达到相同的泛化能力, 越复杂的模型需要的样本数量越多. 为了提高模型的泛化能力, 通常需要正则化( Regularization) 来限制模型复杂度.
PAC学习理论也可以帮助分析一个机器学习方法在什么条件下可以学习到一个近似正确的分类器. 如果希望模型的假设空间越大,泛化错误越小, 其需要的样本数量越多

2. 没有免费午餐定理

没有免费午餐定理( No Free Lunch Theorem, NFL) 是由Wolpert和Macerday 在最优化理论中提出的. 没有免费午餐定理证明: 对于基于迭代的最优化算法, 不存在某种算法对所有问题( 有限的搜索空间内) 都有效. 如果一个算法对某些问题有效, 那么它一定在另外一些问题上比纯随机搜索算法更差. 也就是说, 不能脱离具体问题来谈论算法的优劣, 任何算法都有局限性. 必须要“具体问题具体分析”.
没有免费午餐定理对于机器学习算法也同样适用. 不存在一种机器学习算法适合于任何领域或任务. 如果有人宣称自己的模型在所有问题上都好于其他模型, 那么他肯定是在吹牛.

3. 奥卡姆剃刀原理

奥卡姆剃刀( Occam’s Razor) 原理是由14世纪逻辑学家William of Occam提出的一个解决问题的法则:“如无必要, 勿增实体”. 奥卡姆剃刀的思想和机器学习中的正则化思想十分类似: 简单的模型泛化能力更好. 如果有两个性能相近的模型, 我们应该选择更简单的模型. 因此, 在机器学习的学习准则上, 我们经常会引入参数正则化来限制模型能力, 避免过拟合.
奥卡姆剃刀的一种形式化是最小描述长度( Minimum Description Length,MDL) 原则, 即对一个数据集𝒟, 最好的模型𝑓 ∈ ℱ 会使得数据集的压缩效果最好, 即编码长度最小. 

最小描述长度也可以通过贝叶斯学习的观点来解释 [MacKay, 2003]. 模型𝑓 在数据集𝒟 上的对数后验概率为 

 

其中 −log 𝑝(𝑓) 和 − log 𝑝(𝒟|𝑓) 可以分别看作模型 𝑓 的编码长度和在该模型下数据集 𝒟 的编码长度.也就是说, 我们不但要使得模型 𝑓 可以编码数据集 𝒟, 也要使得模型𝑓 尽可能简单. 

4. 丑小鸭定理

丑小鸭定理( Ugly Duckling Theorem) 是1969年由渡边慧提出的[Watan abe, 1969]。“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”. 这个定理初看好像不符合常识, 但是仔细思考后是非常有道理的. 因为世界上不存在相似性的客观标准, 一切相似性的标准都是主观的. 如果从体型大小或外貌的角度来看, 丑小鸭和白天鹅的区别大于两只白天鹅的区别; 但是如果从基因的角度来看, 丑小鸭与它父母的差别要小于它父母和其他白天鹅之间的差别.

5. 归纳偏置

在机器学习中, 很多学习算法经常会对学习的问题做一些假设, 这些假设就称为归纳偏置( Inductive Bias) [Mitchell, 1997]. 比如在最近邻分类器中, 我们会假设在特征空间中, 一个小的局部区域中的大部分样本同属一类. 在朴素贝叶斯分类器中, 我们会假设每个特征的条件概率是互相独立的.归纳偏置在贝叶斯学习中也经常称为先验( Prior)

参考文献

神经网络与深度学习

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...