线性判别分析
创始人
2024-06-02 19:24:48
0

原理说明

线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的模式识别方法,它通过将数据投影到一个低维空间来实现分类。该算法假设每个类别的数据都服从多元正态分布,并且各个类别的协方差矩阵相同。LDA算法的主要目标是将不同类别之间的距离最大化,同时将同一类别内部的距离最小化。

基本思想
LDA算法的基本思想是将多维数据投影到一个低维空间,使得不同类别之间的距离尽可能大,同一类别内部的距离尽可能小。假设有n个样本,每个样本有m个特征。LDA算法的主要步骤如下:

对每个类别,计算其均值向量。将所有类别的均值向量合并为一个矩阵M,其中每行对应一个均值向量。

对每个类别,计算其协方差矩阵Si。

计算总的类别内散度矩阵Sw,表示所有类别内部数据的离散程度。

计算总的类别间散度矩阵Sb,表示不同类别之间的距离。

对矩阵Sw求逆,然后计算矩阵Sw^-1Sb的特征向量和特征值。

对特征值从大到小排序,选择前k个特征向量作为投影方向。

将数据投影到选定的投影方向上,得到新的低维特征表示。

利用投影后的特征表示进行分类。

数学表述

假设有k个类别,每个类别有nk个样本。每个样本有m个特征,表示为x=(x1, x2, …, xm)。类别标签用y表示,y∈{1,2,…,k}。LDA算法的主要目标是最大化以下函数:

J(w) = (wTSbTw)/(w^T Sw^w)

其中w是一个m维列向量,表示投影方向。Sb和Sw分别表示类别间散度矩阵和类别内散度矩阵,定义如下:

Sb = Σk(nk*(mk-m)(mk-m)^T)

Sw = ΣkΣi(xi-mk)(xi-mk)^T

其中mk是第k个类别的均值向量,xi是第k个类别中的第i个样本。J(w)的值越大,说明投影后的类别间距离越大,同一类别内部距离越小。因此,LDA算法的目标是求解J(w)的最大值对应的投影方向w。利用拉格朗日乘数法,将J(w)的约束条件w^T Sw^w = 1加入到目标函数中,得到如下优化问题:

max(w) J(w) = (w^T SbTw)/(wT Sw^w)

subject to: w^T Sw^w = 1

对上述优化问题求解,可以得到特征值问题:

Sw^-1 Sb w = λw

其中λ是特征值,w是特征向量。解出特征向量后,将其按照特征值大小从大到小排序,选择前k个特征向量作为投影方向,将原始数据投影到这些方向上,得到新的低维特征表示。

LDA和PCA的比较
LDA和主成分分析(Principal Component Analysis, PCA)都是常用的降维方法,它们的区别在于降维的目标不同。PCA旨在最大化数据的方差,而LDA旨在最大化类别间距离,同时最小化类别内距离。因此,LDA更适合于分类问题,而PCA更适合于数据可视化等非监督学习任务。

此外,LDA的投影方向是根据类别信息得到的,因此它需要有类别标签的数据才能训练。而PCA只需要原始数据,不需要类别标签。在没有类别标签的情况下,PCA是更为常用的降维方法。

公式推导

设样本集合D={(x1, y1), (x2, y2), …, (xn, yn)},其中xi∈R^d为第i个样本的特征向量,yi∈{0, 1}为第i个样本的类别标签,0表示负样本,1表示正样本。假设正样本数为m1,负样本数为m0,总样本数为m=m0+m1。

计算均值向量
分别计算正样本集合D1和负样本集合D0的均值向量:

μ1 = (1/m1) ∑xi,yi=1
μ0 = (1/m0) ∑xi,yi=0

计算类内散度矩阵
计算正样本集合D1和负样本集合D0的类内散度矩阵Si:

Si = ∑(xi - μi)(xi - μi)^T,yi = i

计算总类内散度矩阵
计算总类内散度矩阵Sw:

Sw = S0 + S1

其中,S0和S1分别为负样本集合D0和正样本集合D1的类内散度矩阵。

计算类间散度矩阵
计算类间散度矩阵Sb:

Sb = (μ1 - μ0)(μ1 - μ0)^T

求解投影方向
目标是求解J(w)的最大值对应的投影方向w。利用拉格朗日乘数法,将J(w)的约束条件w^T Sw^w = 1加入到目标函数中,得到如下优化问题:

max(w) J(w) = (w^T SbTw)/(wT Sw^w)

subject to: w^T Sw^w = 1

对上述优化问题求解,可以得到特征值问题:

Sw^-1 Sb w = λw

其中λ是特征值,w是特征向量。

选择投影方向
将特征向量按照对应的特征值大小从大到小排序,选择前k个特征向量作为投影方向,将原始数据投影到这些方向上,得到新的低维特征表示。

这样,我们就完成了线性判别分析算法的公式推导。

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...