How Does BERT Rerank Passages?
微调的预训练变压器在段落重排方面达到了最先进的水平。不幸的是,他们如何做出预测仍然无法解释,尤其是在端到端、输入到输出级别。鲜为人知的是,标记、层和段落正是对最终预测的贡献。在本文中,我们通过利用最近开发的归因(IBA)框架的信息瓶颈来解决这一差距。在基于 BERT 的通道重排序模型上,我们定量证明了框架在提取归因图方面的准确性,我们从中对如何做出预测进行了详细的、标记明智的分析。总的来说,我们发现BERT仍然关心reranking的精确token匹配;[CLS]token主要收集最后一层预测的信息;排名靠前的 pas - sages 对令牌删除很有效;和 BER Tfine - 在 MSMARCO 上调整有位置偏差到段落的开头。
BERT is a game changer for information retrieval.Lin et al. (2020) even separate neural rerankingtechniques into “pre-BERT” and “post-BERT” eras.Nogueira and Cho (2019) start the post-BERT eraby proposing a two-stage pipeline, using sparserepresentations like BM25 to generate candidatesand then neural models like BERT to rerank them.More recent work explores merging the two-stagepipeline into an end-to-end dense retrieval, likeDPR (Karpukhin et al., 2020), which still use BERTas the basic building block for neural information re-trieval. Therefore, understanding BERT’s behaviorfor reranking in the original setting still helps.Toward this, a few previous works specificallyanalyze BERT for reranking: Qiao et al. (2019)analyze attention to see how BERT attends to stopwords and regular words across layers. MacAvaneyet al. (2020) does a more thorough study of variousreranking models, using carefully designed textualmanipulation methods. Different from them, we usea model-agnostic method to generate a token-wiseattribution map, as it provides us with the flexibilityto carry out a layer-wise analysis. Besides, to thebest of our knowledge, no previous work has donea cross-passage analysis to see patterns across theranks of different passages.
BERT 是信息检索的游戏规则改变者。 Lin 等人。 (2020) 甚至将神经重新排序技术分为“pre-BERT”和“post-BERT”时代。
Nogueira 和 Cho (2019) 提出了一个两阶段管道,使用像 BM25 这样的稀疏表示来生成候选者,然后是神经模型,从而开启了后 BERT 时代像 BERT 对它们重新排序。最近的工作探索将两阶段管道合并为端到端的密集检索,例如 DPR(Karpukhin 等人,2020),它仍然使用 BER Tas 作为神经信息重新排序的基本构建块 -三元。因此,了解 BERT 在原始设置中重新排序的行为仍然有帮助。为此,之前的一些工作专门分析了 BERT 的重新排序:Qiao 等人。 (2019) 分析注意力以了解 BERT 如何处理跨层的停用词和常规词。麦克阿瓦尼等人(2020) 使用精心设计的文本操作方法对各种重新排序模型进行了更深入的研究。与它们不同的是,我们使用模型-不可知的方法来生成令牌-明智的归因图,因为它为我们提供了进行分层分析的灵活性。此外,据我们所知,以前的工作还没有进行跨段落分析以查看不同段落的级别之间的模式。
Lin et al. (2020) even separate neural re-ranking techniques into “pre-BERT” and “post-BERT” eras.
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!