【迁移学习】分布差异的度量以及迁移学习的统一表征方法_资讯

创始人

2024-02-05 09:19:47

0次

结构风险最小化

机器学习就是要寻找一个最优函数 fff，使得其在所有的训练数据上达到最小的损失。上述学习目标也可以被称为 经验风险最小化 （Empirical Risk Minimization, ERM），其中的损失函数也称为 经验风险。
事实上，一个好的机器学习模型，不仅需要对训练数据有强大的拟合能力，还需要对未来的新数据具有足够的预测能力。结构风险最小化（Structural Risk Minimization, SRM）是统计机器学习中一个非常重要的概念。
SRM准测要求模型在你和训练数据的基础上，也要具有相对简单的复杂性（较低的VC维（Vapnik-Chervonenkis dimension）。
通常采用正则化（Regularization）的方法来控制模型的复杂性。
VC维 是用来衡量研究对象（数据集与学习模型）可学习性的指标。VC维反映了可学习性，与数据量和模型的复杂度相关。因此，VC维较低的模型，其复杂性也较低。
常用的正则化项有：控制样本的稀疏程度、筛选样本的L1正则化，使求解简单、避免过拟合的L2正则化，控制目标熵值的熵最小化等。

领域（Domain）是学习的主体，主要由两部分构成：数据和生成这些数据的概率分布。
一个领域可以被表示为：
两个领域：被迁移的领域和待学习的领域。被迁移的领域、含有知识的领域被称为 源领域 （Source domain，源域），而待学习的领域，被称为 目标领域（Target domain，目标域）。
领域自适应（Domain Adaptation）：前2种情形相同，第3种情形不同。
领域自适应的问题定义如下：
领域自适应可以被分为三种：
- 监督领域自适应（SDA）
- 半监督领域自适应（SSDA）
- 无监督领域自适应（UDA）

在这里插入图片描述

边缘分布自适应的本质，与自变量偏移一样，针对的问题是源域和目标域的边缘概率分布不同，Ps(x)≠Pt(x)P_s(x)\ne P_t(x)Ps(x)=Pt(x)的情况。
自变量漂移同时假设二者的条件概率分布相同，即 Ps(y∣x)≈Pt(y∣x)P_s(y|x)\approx P_t(y|x)Ps(y∣x)≈Pt(y∣x)。
在这个假设的前提下，边缘分布自适应方法的目标是：减少源域和目标域的边缘概率分布的距离。
D(Ps(x,y),Pt(x,y))≈D(Ps(x),Pt(x))D(P_s(x,y), P_t(x,y)) \approx D(P_s(x), P_t(x)) D(Ps(x,y),Pt(x,y))≈D(Ps(x),Pt(x))

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

v∈RNs\boldsymbol{v}\in \mathbb{R} ^{N_s}v∈RNs 为源域样本的权重。
TTT 为作用于源域和目标域上的特征变换函数。
R(T(Ds),T(Dt))R(T(\mathcal{D_s} ),T(\mathcal{D_t} ))R(T(Ds),T(Dt)) 为迁移正则化项（Transfer Regularization）。
迁移学习可以被概括为寻找合适的迁移正则化项的问题。
通过对 viv_ivi 和 TTT 取不同的情况，派生出三大类的迁移学习方法：