Online Learning to Rank

师兄让帮忙整理一下OLTR的一些工作，翻一下Abs，大概了解了一下，后期应该不会再更新这个……

Chen, M., & Zhou, X. (2020). DeepRank: Learning to rank with neural networks for recommendation. Knowledge-Based Systems, 209, 106478.

尽管深度学习在推荐系统中广泛应用且表现良好，但很少有工作将其应用于推荐系统中的排名学习。推荐系统的最终目标是为用户提供推荐排名列表，所以如何得到高质量的排名列表很重要。此外，从基于矩阵分解 (MF) 的方法中学习的潜在特征没有考虑潜在特征之间的交互，因此这些模型不能捕获用户-项目的潜在关联。为了解决这些问题，我们提出了新模型 DeepRank，它使用神经网络来提高协同过滤 (CF) 的个性化排名质量。这是一种通用架构，不仅可以轻松扩展到进一步的研究和应用，而且还可以对pairwise的方法进行简化。最后，我们在三个数据集上进行了实验，结果表明，我们提出的模型效果明显优于SOTA。

Lee, H. C., Rim, H. C., & Lee, D. G. (2019). Learning to rank products based on online product reviews using a hierarchical deep neural network. Electronic Commerce Research and Applications, 36, 100874.

基于评论的线上产品排名是推断用户在不同产品之间相对偏好的任务，可看作实体级情感分析任务的变体。尽管所有用户整体与单个用户的意见之间存在复杂的关系，现有方法通常对用户感兴趣产品的情感特征做假设。在本文中，我们提出了一种新颖的用于学习基于评论对线上产品进行排名的方法。与现有方法不同，它使用深度学习来提取语义信息的表达。在我们的方法中使用了最近提出的分层注意力网络，该网络通过使用基于两级注意力机制的编码器，分层学习产品及其评论的最优特征表示。为了构建更优的排名模型，添加了几个特征来提供有关用户相对偏好的足够信息，并应用了两个具有代表性的排名损失函数，RankNet 和 ListNet。此外，我们证明该网络在基于评论的在线产品销售排名预测方面优于SOTA。

AliExpress Learning-To-Rank: Maximizing Online Model Performance without Going Online

LTR已成为电商应用中的一项关键技术，现有的工作大都是基于在线系统的离线标记数据的有监督学习，然而这些工作在离线验证中可以取得好的表现但在线性能较差或者是反过来，这意味着离线和在线评估之间可能存在较大的不一致。在本文中我们研究并证实了不一致性的存在，并且会对AliExpress的搜索产生重大影响。导致不一致的原因包括学习过程中没有考虑上下文并且离线数据不足以提供上下文信息。因此本文提出一个考虑上下文的评估-生成LTR框架。该框架包括一个考虑上下文的推荐结果评估器，一个通过强化学习最大化评估分数的生成器，一个确保评估器的泛化能力的判别器，在模拟环境以及AliExpress在线系统实验表明，首先在离线数据集的评测指标与线上性能表现存在显着不一致，其次与常见的排名指标相比，我们提出的的评估器得到的分数与线上性能的一致性明显更高，因此，我们的方法在在线 A/B 测试中与工业级微调模型相比，在转化率 (CR) 方面有显著提高。

To Model or to Intervene: A Comparison of Counterfactual and Online Learning to Rank from User Interactions

从用户交互中学习排名 (LTR) 具有挑战性，因为用户反馈通常有偏和噪音。目前，LTR领域有两种处理偏见的方法：counterfactual方法，从历史数据中学习并模拟用户行为来处理偏差；在线干预，处理偏差但不使用基于用户的模型。因为它对最终用户有直接影响，所以在两种方法之间做选择非常重要，但这两种无偏 LTR 方法之间从未有过直接比较。在本文中，我们首个提出了不同实验条件下反事实和在线 LTR 方法的基准，我们的结果表明，方法之间的对比取决于选择偏差的存在，以及位置偏差和交互噪声的程度。在偏差或噪声很小的设置中，反事实方法可以获更好的排名性能，但在其他情况下，它们的优化可能会损害用户体验。相反，在线方法对偏差和噪声非常稳健，但需要控制显示的排名。我们的发现证实并反驳了现有对 LTR 中基于模型和基于干预的方法的影响的预期，以提供从业者在两种方法之间做出明智的决定。

Online Learning to Rank with List-level Feedback for Image Filtering

基于隐式反馈的OLTR已经被广泛应用在能对结果文档提供反馈结果的文档检索中，为了从文档级反馈中学习，当前的算法需要对用户行为进行某些假设。在本文中，我们研究了一种更通用的设置：列表级别反馈的OLTR，直接在整个排名列表的层级上提供反馈。我们提出了两种方法，第一种方法，PGLearn，使用排名模型来生成策略并使用策略梯度在线对其进行优化，第二种方法，RegLearn，通过回归直接预测观察到的列表级反馈来学习如何结合单个文档的相关性得分，我们将提出的方法在图像过滤任务中进行评估，其中使用深度神经网络对图像进行排序。我们表明 PG Learn 在具有列表级反馈的 OLTR 中表现不佳，而RegLearn 在在线和离线指标方面都表现良好。

Differentiable Unbiased Online Learning to Rank

在线排序学习(OLTR)基于用户交互来优化排序模型，SOTA的 OLTR 方法是专门为线性模型提出的，他们的方法不能很好地扩展到非线性模型，如神经网络。我们介绍了一种全新的 OLTR 方法，即对交互构建一个可微的加权pairwise损失: 成对可微的梯度下降法（PDGD）。PDGD 摆脱了传统的依赖于模型的interleaving或者multileaving和广泛抽样来估计梯度的方法。相反，它的梯度是基于用户点击来推断文档对之间的偏好，可以优化任何可区分的模型，证明了 PDGD 梯度是无偏的。我们在最大的公开可用的学习排序(LTR)数据集上的实验表明，在所有级别的交互噪声下都有显著的改善。PDGD 在学习速度和最终收敛方面都优于现有的 OLTR 方法。此外，不同于以往的 OLTR 方法，PDGD 还允许非线性模型得到有效的优化。我们的结果表明，使用神经网络的收敛性能甚至比线性模型更好。总之，PDGD 是一种高效和无偏见的 OLTR 方法，它提供了比以前更好的用户体验。

Policy-Aware Unbiased Learning to Rank for Top-𝑘 Rankings

反事实LTR方法使用有偏的用户交互历史记录来优化排名系统，如果在每个排名结果中都向用户呈现所有相关项，则现有方法是无偏。目前没有针对 topk 排名的反事实无偏 LTR 方法。我们提出了一种新颖的策略感知LTR效果评估器，我们证明，如果topk每个相关项概率都非零，则该评估器是无偏的。我们的实验结果表明，我们的评估器的性能不受 𝑘 大小的影响：对于任何 𝑘，策略感知评估器在从topk反馈学习时都能达到与从完整排名的反馈中学习时相同的检索性能。最后，我们介绍了传统 LTR 方法的新扩展，以执行反事实 LTR 并优化 top𝑘 指标。我们的贡献首先是提出了第一个策略感知无偏 LTR 方法，该方法从 top - 𝑘 反馈中学习并优化 top - 𝑘 指标。因此，反事实 LTR 适用于现在搜索和推荐中非常流行的topk排名设置。

Optimizing Ranking Models in an Online Setting

OLTR 方法通过直接与用户交互来优化排名模型，这使得它们非常高效和响应迅速。过去十年中引入的所有 OLTR 方法都是在原始 OLTR 方法Dueling Bandit Gradient Descent (DBGD)上扩展的。最近，通过成对可微梯度下降 (PDGD) 算法引入了一种完全不同的方法。迄今为止，这两种方法的唯一比较仅限于具有级联点击模型和低噪声水平的模拟。迄今为止的主要结果是 PDGD 在更高的性能水平上收敛，并且比基于 DBGD 的方法学习速度要快得多。然而，PDGD 算法假定用户行为是级联的，这可能会不公平的给它带来优势。此外尚未研究这两种方法对高水平噪声的稳健性。因此，目前尚不清楚所报告的 PDGD 优于 DBGD 的优势是否适用于不同的实验条件。在本文中，我们调查了之前关于 PDGD 和 DBGD 比较的结论是否从理想情况推广到最坏情况。我们有两种方式。首先，我们通过在排名的背景下批判性地审视先前证明的特性，比较了 PDGD 和 DBGD 的理论特性。其次，我们通过模拟理想的用户行为和极其困难的行为（即几乎随机的非级联用户模型）来估计方法性能的上限和下限。我们的研究结果表明，DBGD 的理论界限不适用于任何常见的排名模型，但在理想和最坏情况下，DBGD 的性能都比 PDGD 差得多。这些结果再现了先前发表的关于 PDGD 与 DBGD 的相对性能的发现，并将它们推广到极其嘈杂和非级联的环境中。

A Contextual-Bandit Approach to Online Learning to Rank for Relevance and Diversity

OLTR侧重于从用户交互记录中学习策略，使用该策略构建按序排列的项目列表返回。它是现代交互系统中的核心领域，例如搜索引擎、推荐系统或会话助手。以前的在线 LTR 方法要么假设列表中单个项目的相关性是独立的，与列表中的其他项目无关，要么假设某个项目的相关性是列表信息的函数。前一种方法可能会大部分的相关项关注的都是相同的方面而导致列表的多样性较低，而、后一种方法虽然会提高列表多样化，但会引入一些不相关的项目。
在本文中，我们研究了一个同时考虑相关性和主题多样性的OLTR 问题。我们假设用户从上到下浏览返回的项目列表并单击第一个有兴趣的之后停止浏览其余项目。我们提出了一种称为 Cascade Hybrid 方法来解决这个问题。 Cascade Hybrid 使用两个独立的函数对项目相关性和主题多样性进行建模，并同时从用户点击反馈中学习这些函数。我们在 MovieLens 和 Yahoo music 数据集上进行了实验，结果表明，Cascade Hybrid 在两个数据集上都优于baseline。

Effective and Privacy-preserving Federated Online Learning to Rank

OLTR 主要集中式进行研究，即同一服务器完成索引搜索数据，收集用户的查询和搜索交互记录，并优化排名模型。这种集中式 OLTR 范式的一个缺点是它不能保证用户的隐私，因为所有数据都是由服务器收集的。在本文中，我们提出了一种称为 FPDGD 的联合 OLTR 方法，该方法利用了最先进的成对可微梯度下降 (PDGD) 并将其应用于联合平均框架。为了强大的隐私保证，我们进一步引入了一种基于差分隐私理论的噪声添加裁剪技术，与 FPDGD 结合使用。实证评估表明 FPDGD 显着优于唯一的其他联合 OLTR 方法。此外，FPGDD 在不同的隐私保证要求上比当前方法更稳健：因此，我们的方法对于现实生活应用程序更可靠。

Debiasing Learning to Rank Models with Generative Adversarial Networks

无偏学习排名旨在利用含噪声的用户点击数据为用户生成最佳候选列表。为了解决此类问题，大多数模型将有偏差的点击标签视为相关性和倾向性的组合监督，很少关注用户隐式反馈的不确定性。我们提出了一个半监督框架来解决这个问题，即 ULTRGAN（Unbiased Learning To Rank with Generative Adversarial Networks）。统一框架将任务视为缺少标签的半监督学习，并采用对抗训练来消除点击数据集的偏差。在 ULTRGAN 中，生成器将潜在的负例与真正例相结合作为判别器的样本。同时，判别器和生成器对抗获得更好的性能。我们进一步生成从判别器到生成器的无偏标签。人工数据集和真实数据集的实验结果展示了 ULTRGAN 的有效性和鲁棒性。

How do Online Learning to Rank Methods Adapt to Changes of Intent?

OLTR 使用交互数据（例如点击次数）来动态更新返回排名。 OLTR 一直被认为可以捕获用户意图的及时变化，这是一项在静态数据集上训练的ranker不可能完成的任务。然而，这个特性从未被证明和实证研究过，因为以前的工作只考虑了具有单个用户意图的模拟在线数据，或者没有明确意图概念的真实在线数据，以及它们如何在交互中改变。在本文中，我们通过研究 OLTR 算法适应用户意图变化的能力来解决这一差距。实验表明，对意图变化的适应确实因 OLTR 方法而异，并且还取决于隐式反馈信号中的噪声量。这是一个重要的结果，因为它强调了意图改变适应应该与在线和离线性能一起研究。调查 OLTR 算法如何适应意图变化具有挑战性，因为当前的 LTR 数据集没有明确包含所需的意图数据。除了本文中报告的与意图改变相关的主要发现外，我们还提供了一种方法来研究 OLTR 方法的这一方面。具体来说，我们通过使现有的 TREC 数据集，为具有显式意图更改的 OLTR 构造一个数据集。我们进一步介绍了建模和模拟与意图变化相关的点击行为的方法，并提出了新颖的评估指标，用于研究 OLTR 方法如何在不同方面适应意图变化。

Reusing Historical Interaction Data for Faster Online Learning to Rank for IR

针对IR的OLTR期望能开发出可自动适应用户的搜索引擎。可以通过网络搜索中收集的大量数据（点击数据）对排名进行优化。然而如何从带有噪声的用户交互反馈中快速可靠的学习是一项重大挑战。在本文中，我们调查是否以及如何使用之前收集的历史交互数据来加速IR中利用OLTR来进行排名。我们设计了两种方法，它们可以利用历史数据 (1) 使学习过程中的反馈更可靠，以及 (2) 预选候选排名函数，以便在与检索系统用户的交互中进行评估。我们在 9 个学习排序数据集上评估了这两种方法，发现历史数据可以加快学习速度，从而显着提高在线性能。特别是，我们的预选方法证实了用户反馈中的噪声的有效性。我们的结果表明，历史数据可用于使OLTR在IR系统中排名比现有的工作更有效，尤其是在有噪声的情况下。

Paper reading survey

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Hexo + Netlify 持续集成 + 在线编辑上一篇

SetRank 下一篇