文章目录 前言 Abs 1.Intro 2.Background 2.1.A Hierarchical View of IR 2.1.1.The Core Problem View of IR 2.1.2.The Framework View of IR 2.1.3.The System View of IR 2.2.A Brief Overview of PTMs in IR
前言
因为文章篇幅较长,因此还在持续阅读中 原文(FnTIR 2022)链接:[2111.13853] Pre-training Methods in Information Retrieval (arxiv.org)
Abs
本文致力于提供一个IR领域的预训练方法的系统回顾 介绍了引用于IR系统不同组成的 PTMs,包括检索,重排序,和其他组成
1.Intro
很多不同的排序模型被提出,包括:vector space model,probabilistic ranking model,learning to rank(LTR)model。
PTMs加剧了NLP范式的迁移:先用自监督语言建模进行预训练,然后将预训练模型通过引入小部分额外参数与特定任务目标的 fine-tune 来用于子任务。我们对应用在 IR 上的 PTMs 进行全面回顾,包括预训练 word embdding的用法,还有预训练 transformer 的应用 。
2.Background
本节以分层的方式描述IR的基本概念和定义,并简要回顾IR中的PTMs。
2.1.A Hierarchical View of IR
从核心问题->框架->系统。使用 Q,D,FQ,D,FQ,D,F 来表示查询集合,文档集合,检索函数,q,d,fq,d,fq,d,f 来代表里面的个例。relrelrel 代表相似度评估模型,RqR_qRq 代表对查询 qqq 返回的搜索结果。
2.1.1.The Core Problem View of IR
IR的基本目标就是给用户提供他们信息需求相关的信息,因此,最基础的问题就是 qqq 和 ddd 相似程度的估计 。三类典型的模型:
Classical retrieval models:核心思想是利用精确匹配信号来设计相似评分函数 ,使用一些容易计算的数据(term frenquency,document length等)。这些模型可能会遭遇词汇不匹配问题,由于硬匹配和精确匹配需求 Learning to Rank(LTR)Models:核心思想是使用有监督的机器学习方法,使用手工制作的特征来解决排序问题 。有效特征包括:基于查询的特征(类型,长度等),基于文档的特征(PageRank,点击量等),查询-文档匹配特征(共同出现次数,BM25,修正距离等)。基于 loss function 中考虑的文档的数目,LTR模型可以分成三类: Pointwise:只考虑单个文档,将检索为题当做分类/回归问题 Pairwise:考虑成对文档 Listwise:考虑整个文档列表 Neural Retrieval Models:核心思想是利用神经网络来抽象相似度信号来进行相似度估计 。可以分成三类: Representation-focused models:希望独立学习到查询和文档的密集向量表示,使用 cos,内积的方式计算相似度 Interaction-focused models:捕捉查询和文档之间的交互。使用一个相似矩阵 AAA,AijA_{ij}Aij 代表第 iii 个查询 term embedding和第 jjj 个文档 term embedding之间的相似性。在此矩阵的基础上使用不同的方法来提取特征,用于产生 query-document 相关分数 Mixed models:将上面两种方式结合起来
2.1.2.The Framework View of IR
Document retriever更关注效率,因为要从一大堆文档中进行检索。Re-ranker分为 early- stage re-ranker 和 later-stage re-ranker。二者相比,前者更关注效率,但是相对于 retriever 来说更关注效果。后面一个需要考虑的文档更少,因此更关注效果。根据 re-ranker 的个数,检索过程可以被分成以下方式:
Single-stage Retrieval(n=0):由初始检索收回的排序列表不经过任何重排序器而呈现给用户。用于早起的检索框架(boolean retrieval),和精确匹配就足够用的场景 Two-stage Retrieval(n=1):相对上面,加了一个 re-ranker。在一阶段检索没有考虑到的特征,比如多模态特征,用户行为和知识图收集,也会在重排序阶段考虑 Multi-stage Retrieval(n >= 2):不同的重排序器可能采用不同的结构,并利用不同的信息源。
2.1.3.The System View of IR
Symbolic search system:需要规则来构建文档解析器,该解析器根据各种标准对文档进行索引、筛选和排序,然后将这些数据转换为系统可以理解的符号。因此得名“symbolic search”。symbolic search系统对文档进行索引,建立倒排索引,倒排索引由两部分组成:a dictionary,postings。优点是检索速度快,提供的结果可解释。缺点是只能使用一种语言,需要很高的存储花费 Neural search system:symbolic search更关注精确匹配,neural search更关注语义匹配 。不用构造各种规则,而是使用预训练模型来获得文档的低维密集表示。文档索引被称作 verctor index。优点是对噪音更鲁棒,且容易扩展。缺点是不好解释,且需要很多训练数据。
2.2.A Brief Overview of PTMs in IR
因为创建大规模的带标记数据集是费时费力的,但是创建大规模不带标记的数据集更容易,因此PTMs很受欢迎。工作流程为:1)在未标记数据集上使用 PTMs 学习文本好的表示或者文本对之间更好的交互。2)学习到的表示/交互被 fine-tune 并且用于下游任务。根据下游任务目标,有不同的 fine-tune 方式:Full fine-tuning,Partial fine-tuning,Freezing the weights。