【迁移学习】分布差异的度量以及迁移学习的统一表征方法
创始人
2024-02-05 09:19:47
0
  • 在文本分类中,由于文本数据有其领域特殊性,因此,在一个领域上训练的分类器,不能直接拿来作用到另一个领域上,这就需要用到迁移学习。
    在这里插入图片描述
  • 迁移学习是机器学习中重要的研究领域,ICML、NIPS、AAAI、ICIR等国际人工智能顶会不断推出迁移学习相关主题的研讨会。
    在这里插入图片描述
  • 以计算机为载体,机器学习涉及统计学、概率论、凸优化、程序设计等多个子领域。

结构风险最小化

  • 机器学习就是要寻找一个最优函数 fff,使得其在所有的训练数据上达到最小的损失。上述学习目标也可以被称为 经验风险最小化 (Empirical Risk Minimization, ERM),其中的损失函数也称为 经验风险
  • 事实上,一个好的机器学习模型,不仅需要对训练数据有强大的拟合能力,还需要对未来的新数据具有足够的预测能力。结构风险最小化(Structural Risk Minimization, SRM)是统计机器学习中一个非常重要的概念。
  • SRM准测要求模型在你和训练数据的基础上,也要具有相对简单的复杂性(较低的VC维(Vapnik-Chervonenkis dimension)。
  • 通常采用正则化(Regularization)的方法来控制模型的复杂性。
  • VC维 是用来衡量研究对象(数据集与学习模型)可学习性的指标。VC维反映了可学习性,与数据量和模型的复杂度相关。因此,VC维较低的模型,其复杂性也较低。
  • 常用的正则化项有:控制样本的稀疏程度、筛选样本的L1正则化,使求解简单、避免过拟合的L2正则化,控制目标熵值的熵最小化等。

数据的概率分布

  • 传统的机器学习假设模型的训练和测试数据服从同一数据分布。
  • 在真实的应用中,训练数据和测试数据的分布往往不尽相同。

迁移学习的问题定义

  • 领域(Domain)是学习的主体,主要由两部分构成: 数据 和 生成这些数据的概率分布。
  • 一个领域可以被表示为:
    在这里插入图片描述
  • 两个领域:被迁移的领域和待学习的领域。被迁移的领域、含有知识的领域被称为 源领域 (Source domain,源域),而待学习的领域,被称为 目标领域(Target domain,目标域)。
    在这里插入图片描述
  • 领域自适应(Domain Adaptation):前2种情形相同,第3种情形不同。
  • 领域自适应的问题定义如下:
    在这里插入图片描述
  • 领域自适应可以被分为三种:
    • 监督领域自适应(SDA)
    • 半监督领域自适应(SSDA)
    • 无监督领域自适应(UDA)

分布差异的度量

在这里插入图片描述

边缘分布自适应(Marginal Distribution Adaptation)

  • 边缘分布自适应的本质,与自变量偏移一样,针对的问题是源域和目标域的边缘概率分布不同,Ps(x)≠Pt(x)P_s(x)\ne P_t(x)Ps​(x)​=Pt​(x)的情况。
  • 自变量漂移同时假设二者的条件概率分布相同,即 Ps(y∣x)≈Pt(y∣x)P_s(y|x)\approx P_t(y|x)Ps​(y∣x)≈Pt​(y∣x)。
  • 在这个假设的前提下,边缘分布自适应方法的目标是:减少源域和目标域的边缘概率分布的距离。
    D(Ps(x,y),Pt(x,y))≈D(Ps(x),Pt(x))D(P_s(x,y), P_t(x,y)) \approx D(P_s(x), P_t(x)) D(Ps​(x,y),Pt​(x,y))≈D(Ps​(x),Pt​(x))

动态分布自适应(Dynamic Distribution Adaptation)

在这里插入图片描述

分布差异的统一表征

在这里插入图片描述

分布自适应因子的计算

  • 随机猜测法和最大最小平均法。这两种方法需要大量的重复计算,结果并不具有可解释性。
  • 动态迁移方法。A-distance 被定义为建立一个二分类器进行不同领域的分类得出的误差。
    在这里插入图片描述
    在这里插入图片描述
  • 由于特征的动态和渐进变化性,此估计需要在每一轮迭代中给出。

迁移学习统一表征

在这里插入图片描述

  • v∈RNs\boldsymbol{v}\in \mathbb{R} ^{N_s}v∈RNs​ 为源域样本的权重。
  • TTT 为作用于源域和目标域上的特征变换函数。
  • R(T(Ds),T(Dt))R(T(\mathcal{D_s} ),T(\mathcal{D_t} ))R(T(Ds​),T(Dt​)) 为迁移正则化项(Transfer Regularization)。
  • 迁移学习可以被概括为寻找合适的迁移正则化项的问题。
  • 通过对 viv_ivi​ 和 TTT 取不同的情况,派生出三大类的迁移学习方法
    在这里插入图片描述

样本权重迁移法

在这里插入图片描述

特征变换迁移法

  • 目标是:如何求解特征变换 TTT,使得特征变化后的源域和目标域的概率分布差异达到最小。
    在这里插入图片描述
  • 从生成对抗网络的观点来看,网络中的判别器用来判断数据来自真实图像还是噪声,当其无法分别真实图像和噪声产生的图像时,我们认为判别器学习到了领域不变的特征。这种判别器可以被看成一种隐式距离。

模型预训练迁移法

在这里插入图片描述

总结

在这里插入图片描述

相关内容

热门资讯

写父亲的作文 写父亲的作文(精选60篇)  在日复一日的学习、工作或生活中,大家都不可避免地要接触到作文吧,借助作...
我要自由作文 我要自由作文(4篇)  在平平淡淡的学习、工作、生活中,大家都不可避免地会接触到作文吧,通过作文可以...
难忘的旋律作文800字 难忘的旋律作文800字  "歌曲最重要的是用情感打动人,很多听众和我说他们感觉《懂你》唱给恋人也合适...
玩的作文400字 关于玩的作文400字(通用30篇)  在日常学习、工作抑或是生活中,大家都经常看到作文的身影吧,借助...
随笔作文 随笔作文随笔我不知道梦想是什么颜色,也许它自有自己的颜色,我不知道风往哪里吹,也许它自有自己的方向,...
曾经那个少年作文 曾经那个少年作文(精选22篇)  在现实生活或工作学习中,大家都跟作文打过交道吧,通过作文可以把我们...
垃圾分类的重要性优秀作文40... 垃圾分类的重要性优秀作文400字  我是一个垃圾桶,整天在角落收垃圾,一天到晚都挺着一个“啤酒肚”,...
我最爱看的电视栏目250字作... 我最爱看的电视栏目250字作文我最爱看的电视栏目是少儿频道的《熊出没》。原因:因为这部动画片很好玩,...
爱玩乐器的爸爸作文 爱玩乐器的爸爸作文爱玩乐器的爸爸··· 韩鹦我的爸爸是一个非常喜欢音乐的人,他特别擅长吹、拉、弹各种...
让我再看你一眼作文 让我再看你一眼作文  在日常学习、工作抑或是生活中,许多人都有过写作文的经历,对作文都不陌生吧,借助...
20年后的世界想象作文 20年后的世界想象作文  在日常的学习、工作、生活中,大家对作文都再熟悉不过了吧,写作文可以锻炼我们...
雨优秀作文 【荐】雨优秀作文  在日常学习、工作和生活中,大家都经常看到作文的身影吧,作文根据写作时限的不同可以...
春天作文 关于春天作文(通用15篇)  在日复一日的学习、工作或生活中,大家总少不了接触作文吧,作文是一种言语...
给老师“画像”_我的老师作文... 给老师“画像”_我的老师作文600字  无论是在学校还是在社会中,许多人都有过写作文的经历,对作文都...
我喜欢的水果西瓜作文 我喜欢的水果西瓜作文我喜欢的水果西瓜我最喜欢的水果就是西瓜了。今天正好是星期天,我的奶奶到市场去给我...
秋收的作文600字 秋收的作文600字(精选32篇)  在日常学习、工作或生活中,大家都不可避免地会接触到作文吧,作文是...
蛇作文 蛇作文大家一听到蛇,想蛇全有毒,有些人并不这样认为,因为蛇分为两种,一种是有毒蛇,另一种是无毒蛇。有...
取长补短作文450字 取长补短作文450字  一天,我像往常一样带着小狗花花和小猫京京去宠物食品店买东西。我给小猫京京买了...
走进图书馆作文800字 走进图书馆作文800字(通用7篇)  在日常学习、工作或生活中,大家都接触过作文吧,作文根据写作时限...
感动常在作文 感动常在作文通用15篇  在平时的学习、工作或生活中,大家都写过作文吧,作文是从内部言语向外部言语的...