【吴恩达机器学习笔记】五、逻辑回归
创始人
2024-02-24 03:54:34
0

✍个人博客:https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343
📣专栏定位:为学习吴恩达机器学习视频的同学提供的随堂笔记。
📚专栏简介:在这个专栏,我将整理吴恩达机器学习视频的所有内容的笔记,方便大家参考学习。
📝视频地址:吴恩达机器学习系列课程
❤️如果有收获的话,欢迎点赞👍收藏📁,您的支持就是我创作的最大动力💪

五、逻辑回归

1. 逻辑回归

接下来我们要讲的是关于分类的算法,可以大致分为两个部分,首先要讲的是第一个部分只有两个标签的分类,后面我们会讲到第二部分多标签的分类。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AtK6dcFi-1669596006305)(吴恩达机器学习.assets/image-20211102183253875.png)]

只有两个标签的分类应该很好理解,无非就是将两个类别放在计算机中就变成了判断0和1,0我们就称为负样本(Negative Class),而1我们就称为正样本(Positive Class)

下面我们举个例子,用线性回归来进行分类,看看效果如何。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Or4lstM2-1669596006309)(吴恩达机器学习.assets/image-20211102183624037.png)]

我们可以看到,通过输入样本,计算机就会自动拟合出一条曲线,阈值在0.5的地方,这样看起来效果似乎不错,但是有没有想过,如果有个样本特立独行远离了这些“大群体”,那这条曲线会受到什么影响。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d6iMGczE-1669596006312)(吴恩达机器学习.assets/image-20211102183819720.png)]

可以看到,整条曲线因为一个样本,与原有曲线相差甚大,所以我们一般不会用线性回归进行分类,不光是因为上面这个例子,它还有一个让人琢磨不透的地方就是,即使你输入的样本都是0或1,它的预测值竟然会大于1或者小于0。基于上面这些问题,接下来的主角就登场了,下面将会用到Logistic回归去进行分类。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gOD1P5jl-1669596006315)(吴恩达机器学习.assets/image-20211102184258199.png)]

名字看起来是用来解决关于回归的问题,但实际上它是一种分类算法,这是因为一些历史原因所致。

逻辑回归(Logistic Regression)模型

这个模型所用的函数是Sigmoid function(Logistic function),而Sigmoid funciton得到的的结果都会分布在0和1之间,公式如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lUoi98P1-1669596006317)(吴恩达机器学习.assets/image-20211103110114957.png)]

下面我将给出这个模型的解释。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4n3QuE1P-1669596006326)(吴恩达机器学习.assets/image-20211103111334652.png)]

我们可以假设hθ(x)代表输入值是x且y=1的概率,上面就是一个例子,可以看到输入x1后,hθ(x)=0.7即当x1输入后,有70%的概率是恶性肿瘤。

并且我们还有一点需要注意,P(y = 1|x;θ)代表的意思是在x的情况下,参数是θ且y=1的概率。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pRLgaU3c-1669596006331)(吴恩达机器学习.assets/image-20211103111644921.png)]

我们再对上面进行一下小结,我们可以设定一个规则,当hθ(x)≥0.5时,y=1,并且通过图像观察可以得到θTx≥0;相反当hθ(x)<0.5时,y=0,并且可以得到θTx<0。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GpB9KR4z-1669596006336)(吴恩达机器学习.assets/image-20211103112650359.png)]

2. 决策界限

决策边界(Decision Boundary)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lOvhHWfH-1669596006338)(吴恩达机器学习.assets/image-20211103114350522.png)]

这个决策边界就是上图的那条红线,用来划分y=1和y=0的界限,由g中的函数公式得到,上面例子得到的边界是线性的。

但是如果特征变多了,决策边界就不像一条直线那么简单,它可能就是非线性的曲线了,就如下面这个例子:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6PdfbhJH-1669596006339)(吴恩达机器学习.assets/image-20211103122802511.png)]

小结

决策边界与之前的线性回归不同,它的曲线并不是由给出的数据集所决定,而是当θ给出后,它就已经决定了。

3. 代价函数

在做完上面的铺垫后,这节课要讲的就是在其他条件都给定的情况下,如何得到θ值。

Logistic回归代价函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y4c651Jo-1669596006343)(吴恩达机器学习.assets/image-20211103220031993.png)]

从这个公式可以看出,代价函数中当y=1和当y=0时的式子不太一样,我们先来看当y=1时的情况。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C0G5ZaE2-1669596006345)(吴恩达机器学习.assets/image-20211103124605418.png)]

你会发现在y=1的情况下,当hθ(x)等于1时cost为0,这就是我们想得到的结果,反过来当hθ(x)为0时,cost根本得不到值,并且hθ(x)趋近于0时,cost会非常的大从而被排除,所以就能得到到hθ(x)=0时y不可能为1的结果。接下来再来看看当y=0时的情况。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6vzyrAmy-1669596006347)(吴恩达机器学习.assets/image-20211103125039097.png)]

从图中可以看到,y=0的图像与y=1的图像对称,所以得到的结论也是完全相反,即当hθ(x)=0时,cost为0是最小的,而当hθ(x)等于1时,cost同样也取不到,hθ(x)趋向1时cost也会变得非常的大从而被排除,所以就能得到hθ(x)=1时y不可能为0的结果。

从上面来看,我们就能理解为什么当y=0时hθ(x)<0.5而当y=1时hθ(x)≥0.5了。

接下来,我将为你介绍如何去简化上面代价函数的式子,如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eMpM3ws8-1669596006348)(吴恩达机器学习.assets/image-20211103221354536.png)]

你可以将y=0和y=1的情况带入式子,就可以得到一个整合的式子,我们可以验证一下,当把y=1和y=0分别带入这个式子可以得到两个式子,跟上面提到的两个式子完全相同,因为y和1-y总有一边会消为0。

所以弄清楚其中原理后,我们就要像之前一样,要去找到θ的最优值即当J(θ)最小时候的θ。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2DRr1rJL-1669596006351)(吴恩达机器学习.assets/image-20211103221835459.png)]

而我们现在又可以用到梯度下降的算法来计算θ的最优值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UW3rJBmT-1669596006354)(吴恩达机器学习.assets/image-20211103222157113.png)]

将式子带入,化简之后得:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lhxS9xLx-1669596006355)(吴恩达机器学习.assets/image-20211103222235390.png)]

到这里你可能会有疑问,这不是跟之前线性回归的梯度下降公式一毛一样吗,但实际上并不是,因为logistic回归的假设函数h(θ)与线性回归的完全不一样,所以带入式子会得到两个不一样的结果。但是因为两者都是用到了梯度下降算法,所以两者的特征值如果相差过大,都可以用特征缩放来缩小特征值,从而使梯度下降收敛更快。

小结

logistic回归是一种非常强大,甚至是全世界运用最广泛的一种分类算法。

4. 高级优化

上面我们是通过给到θ然后计算J(θ)以及它对θ的偏导数值然后带入梯度下降的算法得到最优值,但是当数据变得非常多时,梯度下降的效率就会大打折扣,所以还有其他更好的算法可以计算θ最优值时收敛的更快,但同时也会更加复杂。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bbbgldkG-1669596006357)(吴恩达机器学习.assets/image-20211105110334354.png)]

如上面所示,共轭梯度算法(Conjugate gradient)、BFGS和L-BFGS三个算法收敛的速度会更快,而且你不用手动的去计算α,他们会自动计算给出最优α,但是缺点就是太过于复杂。现实中,不用去深入了解这些算法的细节,除非你是数值专家,你只需要知道怎么去用,怎么写代码就够了。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u0Ael1dL-1669596006358)(吴恩达机器学习.assets/image-20211105151735849.png)]

而总结起来就是首先我们要给出θ的值,然后写出代价函数的代码区计算J(θ)与其对θ的偏导数,然后用高级优化算法去得出最优解。

5. 多元分类

接下来我们来讲讲用逻辑回归来进行多分类,下面举几个例子来解释什么是多分类:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GLEMF6cy-1669596006360)(吴恩达机器学习.assets/image-20211105112745458.png)]

你可以将它想象成你有一个邮件,它可以自动的去分到工作、朋友、家人和爱好其中的类别当中,这就是多分类问题,当然你也可以想象成其它例子,就如上面的看病或者天气例子,所以在图像上也会有所不同。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ns3YwFIu-1669596006362)(吴恩达机器学习.assets/image-20211105113454565.png)]

我们就拿三元分类作为例子:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YW8nX4eK-1669596006364)(吴恩达机器学习.assets/image-20211105113916845.png)]

我们可以将三个类别分别设为y=1、y=2和y=3,然后得出三个分类器,每一个拟合器对应着一个类别,分别对每个分类器进行训练,然后测量对应类别的概率。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kHiWv8cX-1669596006367)(吴恩达机器学习.assets/image-20211105114224749.png)]

小结

一对多的分类问题,就是通过对每一个类别训练一个分类器,分别得到不同的h(θ),这样当输入x的时候,我们就将x分别输入每一个分类器进行计算其概率值,最终h(θ)值最大的那个分类器所对应的类别即是我们要分入的类别。

相关内容

热门资讯

脱贫攻坚英语作文高考范文【通... 脱贫攻坚英语作文高考范文 篇一Title: The Importance of Education ...
各有各的精彩高三作文【优秀4... 各有各的精彩高三作文 篇一我的高三生活高三是人生中最为关键的一年,我也在这一年里经历了许多精彩的事情...
高考优秀作文:着眼现在面向未... 高考优秀作文:着眼现在面向未来 篇一题目:科技进步与人类命运字数:600字随着科技的不断进步,人类的...
简短激昂的高三誓词(优质3篇... 篇一:简短激昂的高三誓词高三,是我们追梦的起点,也是我们奋斗的终点。在这个阶段,我们要面对严峻的学业...
北京高考满分作文欣赏附题目【... 北京高考满分作文欣赏附题目 篇一题目:"城市绿化与人们的生活质量"字数:614城市绿化与人们的生活质...
高考英语必考60个重要句型【... 高考英语必考60个重要句型 篇一第一篇内容高考英语是每个高中生都面临的重要考试,而掌握一些常用的句型...
获科技创新大赛奖高考考生没有... 获科技创新大赛奖高考考生没有保送资格 篇一近年来,随着科技的迅猛发展,科技创新大赛在各个学校和地区之...
高考满分作文:踮起脚尖(通用... 高考满分作文:踮起脚尖 篇一踮起脚尖,攀登高峰踮起脚尖,这是一种努力,一种追求,以及一种勇气。对于高...
高考乙卷优秀作文范文(精选6... 高考乙卷优秀作文范文 篇一自信的力量自信是一种强大的力量,它能够推动我们不断前进,克服困难,实现自己...
高考作文题目及范文【最新3篇... 高考作文题目及范文 篇一题目:人与自然的和谐关系范文:人与自然的和谐关系一直是人类社会发展的重要命题...
高考生家长:家长必知的十点建... 高考生家长:家长必知的十点建议 篇一在高考这个重要的阶段,家长的作用举足轻重。作为家长,我们应该给予...
文科高考志愿个人陈述范文【精... 文科高考志愿个人陈述范文 篇一我一直对文科充满兴趣,因此在选择高考志愿时,我毫不犹豫地选择了文科方向...
历年安徽高考满分作文赏析:勇... 历年安徽高考满分作文赏析:勇于挑战,敢于质疑 篇一勇于挑战,敢于质疑,是一种积极向上的心态和精神品质...
2019高考经典范文大全(经... 2019高考经典范文大全 篇一高考改革:探索多元评价体系随着社会的发展和教育观念的变革,高考改革已经...
高考英语作文加分高级句型【精... 高考英语作文加分高级句型 篇一:如何提高英语写作能力英语写作是高考英语考试的重要组成部分,也是考生们...
高考满分作文好句摘抄【通用3... 高考满分作文好句摘抄 篇一第一篇内容高考是每个学生都无法绕开的一道坎,它是一次考验也是一次机遇。在高...
高考预测作文:期待,生命不合... 高考预测作文:期待,生命不合理是可能的 篇一期待,生命不合理是可能的生命是一个奇妙而不可预测的旅程,...
光头的背后:《非诚勿扰》孟非... 光头的背后:《非诚勿扰》孟非 篇一在中国的相亲节目中,《非诚勿扰》无疑是最受欢迎的一档。而这档节目的...
冲刺高考励志作文【推荐6篇】 冲刺高考励志作文 篇一奋斗的力量高考,是每个学生心中的一块巨石。在这个关键的阶段,每个人都希望能够以...
浙江高考满分作文:人生应读三... 浙江高考满分作文:人生应读三本书 篇一人生应读三本书在我们的一生中,书籍扮演着重要的角色,它们不仅是...