基于大语言模型的推荐系统代理综述
推荐系统是许多在线平台的重要组成部分,但传统方法在理解复杂的用户偏好和提供可解释的推荐方面仍存在困难。基于大语言模型(LLM)的代理通过实现自然语言交互和可解释的推理,为推荐系统的研究提供了新的途径。本文系统地回顾了基于LLM的代理在推荐系统中的新兴应用。我们识别并分析了当前研究中的三个关键范式:(1)推荐导向的方法,利用智能代理增强基本的推荐机制;(2)交互导向的方法,通过自然对话和可解释的建议
彭启尧1,刘宏涛2,黄华1,杨青2,邵明来1
1 天津大学新媒体与传播学院,天津,中国
2 度小满金融技术公司,北京,中国
{qypeng, huanghua18, shaoml}@tju.edu.cn, {liuhongtao01, yangqing}@duxiaoman.com
摘要
推荐系统是许多在线平台的重要组成部分,但传统方法在理解复杂的用户偏好和提供可解释的推荐方面仍存在困难。基于大语言模型(LLM)的代理通过实现自然语言交互和可解释的推理,为推荐系统的研究提供了新的途径。本文系统地回顾了基于LLM的代理在推荐系统中的新兴应用。我们识别并分析了当前研究中的三个关键范式:(1)推荐导向的方法,利用智能代理增强基本的推荐机制;(2)交互导向的方法,通过自然对话和可解释的建议促进动态用户参与;(3)模拟导向的方法,使用多代理框架建模复杂的用户-项目交互和系统动态。除了范式分类外,我们还分析了基于LLM的推荐代理的架构基础,考察了其核心组件:用户画像构建、记忆管理、策略规划和行动执行。我们的研究扩展到对这一领域基准数据集和评估框架的全面分析。这种系统的审查不仅阐明了当前基于LLM的代理推荐系统的现状,还指出了该领域的关键挑战和有前景的研究方向。
1 引言
在信息爆炸的时代,推荐系统 [Wu et al., 2022] 已成为数字平台不可或缺的组成部分,帮助用户在电子商务、社交媒体和娱乐等领域浏览大量内容。虽然传统的推荐方法 [He et al., 2017] 通过分析用户偏好和历史行为,在提供个性化建议方面取得了显著的成功,但在实际应用中仍然面临重大挑战,例如对复杂用户意图的理解有限、交互能力不足以及无法提供可解释的推荐 [Zhu et al., 2024b]。
最近的大语言模型(LLM)进展 [Achiam et al., 2023] 激发了越来越多的兴趣,利用基于LLM的代理 [Wang et al., 2024a] 来解决推荐系统中的上述挑战。将基于LLM的代理集成到推荐系统中,相比传统方法 [Zhu et al., 2024b] 具有多个优势。首先,LLM代理可以通过其复杂的推理能力理解复杂的用户偏好,并生成上下文推荐,从而实现超越简单特征匹配的更细致的决策。其次,它们的自然语言交互能力促进了多轮对话,主动探索用户兴趣并提供可解释的解释,提高了推荐准确性和用户体验。第三,这些代理通过生成包含情感状态和时间动态的更真实的用户画像,革新了用户行为模拟,使系统评估更加有效。此外,LLM的预训练知识和强大的泛化能力促进了跨域的知识迁移,解决了冷启动等持久性问题 [Shu et al., 2024],且无需额外训练。
在本综述中,我们全面回顾了基于LLM的代理在推荐系统中的应用。首先,我们介绍了传统推荐系统的背景,并讨论了它们在理解复杂用户意图、交互能力和可解释性方面的局限性。然后,我们系统地检查了基于LLM的代理如何通过三种主要范式解决这些挑战:推荐导向(例如,[Wang et al., 2024b; Wang et al., 2024c])、交互导向(例如,[Zeng et al., 2024; Friedman et al., 2023])和模拟导向(例如,[Yoon et al., 2024; Guo et al., 2024])。接下来,我们提出了一种统一的代理架构,包括四个核心模块(用户画像 [Cai et al., 2024; Zhang et al., 2024c]、记忆 [Shi et al., 2024; Fang et al., 2024]、规划 [Wang et al., 2023b; Shi et al., 2024] 和行动 [Zhu et al., 2024a; Zhao et al., 2024]),并分析了现有方法如何实现这些组件。此外,我们编译了对数据集(包括Amazon系列、MovieLens、Steam等)和评估方法的全面比较,涵盖了标准推荐指标和新颖的评估方法。最后,我们探讨了该领域的几个有前景的未来方向。
- 我们提出了基于LLM的推荐代理的系统分类,确定了三个基本范式:推荐导向、交互导向和模拟导向方法。这种分类法为理解当前研究提供了一个结构化的框架。
- 我们利用统一的架构框架来分析基于LLM的代理推荐系统,将其分解为四个核心模块:用户画像构建、记忆管理、策略规划和行动执行。通过这个框架,我们系统地检查了现有方法如何集成和实现这些组件。
- 我们提供了对现有方法、基准数据集和评估方法的全面比较分析,涵盖了传统的推荐指标和专门为基于LLM的代理推荐设计的新颖评估方法。
2 背景
2.1 传统推荐
在传统的推荐系统中,问题通常被定义在一个用户空间 U = [u1, u2, …, um]、一个项目空间 I = [i1, i2, …, in] 及其交互矩阵 D ∈ R m×n 上。基本目标是学习一个偏好函数 p : U × I → R,以预测用户的偏好:
min θ ∑ ( u , i ) ∈ D L ( p θ ( u , i ) , y u , i ) , (1) \min_{\theta} \sum_{(u,i)\in\mathcal{D}} \mathcal{L}(p_{\theta}(u,i), y_{u,i})\,,\tag{1} θmin(u,i)∈D∑L(pθ(u,i),yu,i),(1)
其中 pθ(u, i) 表示预测的偏好,yu,i 表示真实交互。尽管已经提出了各种方法,从矩阵分解 [Hu et al., 2008] 到深度学习 [He et al., 2017],这些传统方法仍面临一些固有的局限性。首先,它们难以理解超出数值交互的复杂用户意图。其次,它们缺乏有意义的交互能力来探索用户偏好。第三,它们的推荐往往像“黑箱”一样,没有为用户提供明确的解释。
2.2 LLM 作为代理
作为一种代理的大语言模型(LLM)是一个新兴的研究方向,已引起广泛关注 [Park et al., 2023]。它超越了传统的静态提示-响应范式,建立了一个动态决策框架 [Patil et al., 2023],能够将复杂任务系统地分解为可管理的组件。典型的基于LLM的代理架构集成了四个基本模块 [Wang et al., 2024a]:(1)用户画像模块,用于构建和维护全面的用户特征表示;(2)记忆模块,用于协调历史交互并保留上下文信息,以便系统地积累经验;(3)规划模块,通过复杂的任务分解和多目标优化制定策略;(4)行动模块,执行决策并促进环境交互。诸如ReAct [Yao et al., 2023]、Toolformer [Schick et al., 2023] 和 HuggingGPT [Shen et al., 2024] 等开创性工作的出现极大地推动了这一领域的发展。
2.3 用于推荐的LLM代理
在基于LLM的代理推荐系统中,我们通过代理中心框架来表述推荐过程。设 a ∈ A 表示一个配备了一组功能模块 F = F1, F2, …, FK 的代理,每个模块 Fk 代表一种特定的能力。对于用户 u 的推荐过程可以形式化表示为:
y ^ u = f ( F k ( X u ) ) , k = 1 ⋯ K , (2) \hat{\mathbf{y}}_u = f(\mathcal{F}_k(X_u)), k = 1 \cdots K \ , \tag{2} y^u=f(Fk(Xu)),k=1⋯K ,(2)
其中 Xu ∈ X 表示包含用户特定信息(如交互历史、上下文特征)的输入空间,yˆu ∈ R N 表示对项目空间的预测偏好分布。整合函数 f : Fk(Xu) → R N 合成模块输出以生成最终推荐。基于之前介绍的四个功能模块(用户画像、记忆、规划和行动),这种表述提供了一个灵活的框架,可以容纳各种基于LLM的代理推荐方法。这些模块在一个闭环框架中运行,其中交互数据不断丰富用户画像和系统记忆,为规划策略提供信息,最终通过行动执行和反馈收集体现为个性化的推荐。
3 方法
在本节中,我们根据方法的整体目标和不同方法的代理组件对现有的基于LLM的代理推荐工作进行整理。
3.1 方法目标
在表 1, 中,我们将现有方法的目标分为三类:推荐导向的方法、交互导向的方法和模拟导向的方法。类别说明如图 1. 所示。
(1)推荐导向的方法侧重于开发具有增强规划、推理、记忆和工具使用能力的智能推荐。在这些方法中,LLM利用用户的历史行为生成直接的推荐决策。例如,如图 1, 所示,当用户表现出对科技新闻和AI相关内容的近期参与时,系统可能会战略性地推荐:“这里有5篇关于最新大语言模型突破的文章,3篇关于机器学习基础知识的入门文章,以及2篇关于AI对社会影响的科普文章。” 这种范式展示了代理如何有效地结合其核心能力来提供直接的项目推荐。
我不喜欢… 图1:不同方法目标的说明。我们将现有方法分为以下三类:(1)推荐导向的方法;(2)交互导向的方法;(3)模拟导向的方法。
图2:代理组件及其对应功能的说明。
这方面的一些代表性工作包括Rec-Mind [Wang et al., 2024b],它开发了一个具有综合能力的统一LLM代理,通过LLM输出直接生成推荐。MACRec引入了一种代理协作机制,协调不同类型代理提供个性化推荐 [Wang et al., 2024c]。
(2)交互导向的方法侧重于实现自然语言交互并通过对话参与提高推荐的可解释性。这些方法利用LLM进行类似人类的对话或解释,同时进行推荐。例如,如图 1, 所示,LLM可能会回应用户的查询:“我注意到你喜欢科幻电影,尤其是在最近观看了《黑暗侵袭》和《星际迷航》之后。考虑到这一偏好,我想推荐《2001太空漫游》,这是一部经典电影,也探讨了关于人类和外星文明的深刻主题。你觉得怎么样?”这种交互式推荐不仅展示了代理跟踪用户偏好的能力,还以对话的方式阐述推荐理由。
AutoConcierge [Zeng et al., 2024] 使用自然语言对话来理解用户需求并收集用户偏好,并利用LLM理解和生成语言,最终提供可解释的个性化餐厅推荐。RAH [Shu et al., 2024] 是一个基于LLM代理的人机交互推荐框架。它通过ResSys-Assistant-Human三方互动和Learn-Act-Critic循环机制实现个性化推荐和用户意图理解。
历史
=
偏好
…
…
行动规划 响应生成 任务执行 反馈学习 (3) 模拟导向的方法旨在通过复杂的模拟技术真实地复制用户行为和偏好。这些方法利用LLM生成对推荐的真实用户响应。例如,在模拟用户反馈时,LLM可能会生成:“作为一个热衷于探索新音乐的用户,我会点击这首结合了爵士和电子元素的新歌,因为它符合我对实验音乐的兴趣,同时保持我喜欢的节奏风格。” 这些方法侧重于使用代理在推荐系统中模拟用户行为和项目特征。
Agent4Rec [Zhang et al., 2024a] 利用LLM赋能的生成代理作为用户模拟器,建模用户与推荐系统之间的真实交互,旨在在推荐环境中复制和评估真实用户行为。AgentCF [Zhang et al., 2024c] 将用户和项目都建模为由LLM驱动的代理,它们自主交互并相互协作学习,以在推荐系统中模拟真实的用户-项目交互。UserSimulator 提出 [Yoon et al., 2024] 一种评估协议,通过五个任务来衡量这些模拟器在对话推荐中模拟真实用户行为的能力。
3.2 代理组件
基于LLM的代理推荐架构由四个主要模块组成:用户画像模块、记忆模块、规划模块和行动模块。图 2 说明了架构的核心组件及其对应功能。
(1) 用户画像模块是构建和维护推荐系统中用户和项目的动态表示的基本组件。通过对历史交互的持续分析,它捕捉用户行为的时间和上下文模式。例如,当系统观察到用户通常在工作日早上浏览科技新闻,而在周末喜欢观看旅行内容时,用户画像模块将构建一个“工作日关注科技新闻,周末偏好休闲内容”的用户画像。这种自适应的用户画像方法整合了行为模式、用户偏好和外部知识,以实现高度个性化的推荐。
Agent4Rec [Zhang et al., 2024a] 中的用户画像模块包含两个组成部分:量化社会特征(活动性、一致性、多样性)和通过LLM提取的个性化偏好,从而全面模拟用户特征。MACRec [Wang et al., 2024c] 包含用户和项目分析师,这些分析师在理解用户偏好和项目特征方面发挥着关键作用。AgentCF [Zhang et al., 2024c] 构建基于自然语言的用户画像,以捕捉动态用户偏好和项目画像,以表示项目特征和潜在采用者的偏好,从而实现基于代理的协同过滤。
(2) 记忆模块作为情境大脑,管理和利用历史交互和经验以提高推荐质量。它维护过去交互、情感反应和对话上下文的结构化存储库,以支持更明智的决策。例如,在餐厅推荐场景中,当用户评论“上次那家四川餐厅太辣了”时,记忆模块会从历史交互中检索特定餐厅的引用,并将这一偏好信号纳入未来的推荐中,帮助避免过于辛辣的选项。通过这种持续积累和利用经验知识,该模块能够提供更个性化且具有上下文感知的推荐,反映用户的过去经验和偏好。
RecAgent [Wang et al., 2023a] 包含三个层次:感觉记忆、短期记忆和长期记忆。感觉记忆处理环境输入,而短期记忆作为中间层,可以通过重复强化转化为长期记忆。长期记忆存储重要的可重用信息,并促进自我反思和知识泛化。Agent4Rec [Zhang et al., 2024a] 由事实记忆(记录交互行为)和情感记忆(捕捉心理状态)组成,以自然语言和向量表示形式存储,并通过检索、写入和反思三种机制进行管理。
(3) 规划模块通过设计多步骤行动计划来输出智能推荐策略,平衡即时用户满意度和长期参与目标。它通过仔细的策略生成和任务排序动态制定推荐轨迹。例如,在视频推荐中,系统可能会构建一个战略计划:“首先推荐一个热门视频以建立用户兴趣,然后逐步引入小众但高质量的相关内容,同时保持类型的多样性,最终实现既满足用户兴趣又扩展视野的目标”。通过这种规划方法,该模块优化资源配置并调整推荐序列,以实现用户参与和项目发现。
BiLLP [Shi et al., 2024] 的规划机制采用分层结构,包括宏观学习(Planner和Reflector LLMs)从经验中生成高层次的战略计划和指南,而微观学习(Actor-Critic)将这些计划转化为具体的推荐。MACRS [Fang et al., 2024] 使用多代理规划系统,其中Planner Agent通过多步推理协调三个Responder Agents(Ask, Recommend, Chat)。系统通过反馈机制调整其对话策略,根据用户互动进行反思性规划。
(4) 行动模块作为执行引擎,通过与各种系统组件的系统交互将决策转化为具体的推荐。例如,在电子商务场景中,当从规划模块接收到“为新用户推荐入门级相机”的指令时,行动模块执行一系列协调操作:分析类似用户的购买模式,查询具有特定价格和功能约束的产品数据库,生成有针对性的推荐,并捕获用户反馈。这种执行使系统能够提供上下文适当的推荐,同时不断从互动结果中学习。
RecAgent [Wang et al., 2023a] 通过统一的提示框架在推荐系统和社会环境中编排自然的代理交互,包含六种行动模式(涵盖搜索、浏览、点击、分页、聊天和广播功能)。InteRecAgent [Huang et al., 2023] 行动模块集成了三个核心工具(信息查询、项目检索和项目排名),并通过Candidate Bus进行顺序工具通信,实现从用户查询到最终推荐的端到端交互过程。
4 数据集和评估
在本节中,我们报告了各种方法使用的数据集和评估指标。数据集信息来自原始来源或论文。
4.1 数据集
传统推荐数据集 在表 2, 中,我们列出了几个用于评估模型性能的传统推荐数据集。这些数据集提供了来自各种平台的综合交互数据,包括用户-项目交互、时间戳和评论文本,使推荐模型的评估成为可能。几种最先进的方法已经使用这些数据集展示了其有效性。
例如,来自Amazon Review数据 [McAuley et al., 2015] 的“Books”数据集(10.3M用户,4.4M项目)已被用于评估Agent4Rec [Zhang et al., 2024a] 和BiLLP [Shi et al., 2024] 在大规模任务上的性能,而“Video Games”数据集(2.8M用户,137.2K项目)
已验证DRDT [Wang et al., 2023b] 和RAH [Shu et al., 2024] 的能力。“Beauty”数据集(632K用户,112.6K项目)已被IntcRecAgent [Huang et al., 2023] 和DRDT [Wang et al., 2023b] 用于展示其推荐能力。这些多样化的应用突显了数据集在推进基于LLM的代理推荐系统中的关键作用,并为评估各种算法提供了基础。
MovieLens数据集由[Harper and Konstan, 2015] 引入,代表了另一个评估基于LLM的代理推荐系统的重要基准,提供了不同规模的电影评分数据。这些数据集范围从MovieLens-100K(0.9K用户,1.6K项目)到MovieLens-20M(138.5K用户,27.3K项目),为研究人员提供了在不同数据规模上测试其方法的灵活性。各种最先进的方法已使用这些数据集:FLOW [Cai et al., 2024] 和MACRS [Fang et al., 2024] 已在较小的MovieLens-100K数据集上进行了验证,而Agent4Rec [Zhang et al., 2024a]、DRDT [Wang et al., 2023b] 和MACRS [Fang et al., 2024] 已在MovieLens-1M上展示了其能力。较大的变体如MovieLens-10M和MovieLens-20M分别被InteRecAgent [Huang et al., 2023] 和RecAgent [Yoon et al., 2024] 所使用,展示了其方法的可扩展性。这种层次结构的MovieLens数据集使其特别有价值,可以系统地在不同规模上评估推荐算法。
Steam、Lastfm、Anime和Yelp数据集为基于LLM的代理推荐系统提供了多样化的领域特定评估场景。由[Kang and McAuley, 2018] 引入的Steam数据集包含334.7K用户和13K游戏项目之间的3.7M次交互,已被Agent4Rec [Zhang et al., 2024a]、BiLLP [Shi et al., 2024]、FLOW [Cai et al., 2024] 和InteRecAgent [Huang et al., 2023] 广泛用于验证其在游戏推荐中的有效性。专注于音乐推荐的Lastfm数据集 [Cantador et al., 2011] 包含1.2K用户对4.6K音乐项目的73.5K次交互,已被FLOW [Cai et al., 2024] 特别用于展示其在音乐领域的功能。此外,包含30.4K用户和20.4K项目之间的316.3K次交互的Yelp数据集已被Rec-Mind [Wang et al., 2024b] 用于评估其推荐性能。这些领域特定的数据集在专门的推荐上下文中提供了独特的评估机会。
对话推荐数据集 除了上述传统推荐数据集外,一些工作 [Zhu et al., 2024a] 还在对话数据集上评估模型性能。在表 2, 中,我们列出了三个广泛采用的数据集:ReDial [Li et al., 2018]、Reddit [He et al., 2023] 和OpenDialKG [Moon et al., 2019]。ReDial数据集包含涉及6925部电影的11348个多轮对话,参与者进行寻求者-推荐者互动。Reddit数据集源自Reddit社区内的电影推荐讨论,用户发布推荐请求并接收带有解释理由的电影建议。这个庞大的数据集涵盖了634392次对话、1669720个对话回合、36247名用户和51203部电影。CSHI [Zhu et al., 2024a] 使用ReDial(电影领域,包括10006次对话)和OpenDialKG(多个领域,包括13802次对话)进行性能评估。UserSimulator [Yoon et al., 2024] 以多种方式在Redial和Reddit数据集上进行评估,包括行为模拟和记忆模块可信度等。这些真实的人际对话作为评估基于LLM的代理推荐系统模型能力的关键基准。
值得一提的是,考虑到基于LLM的代理推荐系统,在模型运行时需要频繁调用LLM或API。为了节省资源和时间,一些方法从原始数据集中采样数据进行性能评估。例如,AgentCF [Zhang et al., 2024c] 随机采样两个子集(一个密集,一个稀疏),每个子集包含100个用户。DRDT [Wang et al., 2023b] 从每个数据集中随机采样200个用户,并使用目标项目以及19个随机采样的项目作为候选项目集。
4.2 评估
在表 3, 中,我们总结了最近代表性方法使用的评估指标。
标准推荐指标 大多数现有方法采用标准推荐评估指标来评估模型性能。常用的指标包括归一化折损累积增益(NDCG@K)、召回率(Recall@K)和命中率(HR@K)等。例如,AgentCF [Zhang et al., 2024c] 使用NDCG@K和Recall@K在MovieLens-1M数据集上评估其性能。同样,DRDT [Wang et al., 2023b] 在多个数据集(包括ML-1M、Games和Luxury数据集)上使用Recall@10,20和NDCG@10,20进行全面评估。命中率(HR@K)是评估推荐性能的另一个重要指标。RecMind [Wang et al., 2024b] 在Amazon Reviews(Beauty)和Yelp数据集上使用该指标评估推荐任务。
语言生成质量 一些方法 [Wang et al., 2024b] 考虑了语言生成质量的评估(例如,推荐解释生成、评论摘要),主要依赖BLEU和ROUGE指标。BLEU衡量生成文本相对于参考文本的精确度,而ROUGE评估基于召回的相似性,从而在推荐场景中全面评估语言生成能力。PMS [Thakkar and Yadav, 2024a] 使用ROUGE评估其生成的文本推荐的质量。
强化学习指标 在评估基于LLM的代理推荐系统的长期参与度时,BiLLP [Shi et al., 2024] 采用了三个从强化学习中借鉴的关键指标:轨迹长度、平均单轮奖励和累积轨迹奖励。同样,LUSIM [Zhang et al., 2024d] 使用总奖励来反映整个交互过程中的整体用户参与度,并使用平均奖励来表示单个推荐的平均质量。这些指标用于评估即时推荐质量和长期参与效果。
对话效率指标 最近的研究引入了更全面的指标来评估推荐系统中对话交互的效率。例如,MACRS [Fang et al., 2024] 采用了关键的交互聚焦指标,如成功率(成功推荐的比例)和平均回合数(AT)(每会话所需的交互轮数)。这些指标评估系统如何有效地理解用户偏好并提供准确的推荐,同时最小化交互轮数。
自定义指标 除常规指标外,一些方法 [Yoon et al., 2024] 提出了定制的评估框架。AutoConcierge [Zeng et al., 2024] 提出了六个针对任务驱动的对话代理的评估指标:主动性、经济性、可解释性、正确性、一致性和效率。RecAgent [Wang et al., 2023a] 提出了模拟用户行为可信度和代理记忆可信度,以评估LLM模拟用户交互和记忆机制的有效性。这些指标分别评估系统参与度、对话效率、答案可解释性、响应准确性、需求满足度和响应时间。
总之,这些指标强调对话性能的整体理解,注重高效推荐交付与在整个推荐过程中保持高质量对话之间的平衡。
5 相关研究领域
基于LLM的推荐系统 近年来,基于大型语言模型(LLM)的推荐系统引起了广泛关注。这类系统充分利用了LLM强大的语言理解和生成能力,为传统推荐系统带来了新的范式。现有的大多数方法主要用于评分预测 [Bao et al., 2023] 和顺序推荐 [Hou et al., 2024; Shao et al., 2024; Zheng et al., 2024]。CoLLM [Zhang et al., 2023] 通过外部传统模型捕捉和映射协同信息,形成由LLM使用的协同嵌入。LlamaRec [Yue et al., 2023] 对Llama-2-7b进行微调,用于预选项目的列表式排序。然而,这些方法面临显著的局限性:无法模拟真实用户行为以增强个性化,缺乏有效的记忆机制以实现长期上下文感知,以及僵硬的管道结构阻碍灵活的任务分解和与外部工具的无缝集成。
对话推荐系统 对话推荐系统(CRS)近年来已成为一个重要研究方向 [Jannach et al., 2021],类似于基于LLM的代理推荐系统。然而,传统方法 [Lei et al., 2020] 存在两个主要缺点:基于属性的方法受限于僵硬的对话模式,而基于生成的方法则受到小型语言模型的知识限制和较差的泛化能力的影响。
6 未来方向
系统架构优化 传统推荐方法与LLM之间的集成仍不充分,存在多代理协作和系统可解释性的挑战。未来的发展应探索灵活的架构设计,提高代理合作效率,同时确保推荐的透明度。
评估框架细化 目前缺乏统一和全面的评估标准来准确测量对话质量和推荐效果。未来研究需要建立稳健的评估框架,开发新的性能指标,并考虑实际应用中的隐私和安全问题。
安全推荐系统 [Ning et al., 2024] 揭示了基于LLM的推荐系统容易受到对抗攻击的脆弱性。未来,研究人员可以开发鲁棒的对抗检测方法,研究多代理防御架构,并将领域特定的安全知识整合到防御机制中。
7 结论
将基于LLM的代理集成到推荐系统中已成为近年来的重大进展。在这篇综述中,我们将现有方法系统地分为三类:推荐导向、交互导向和模拟导向。我们通过统一的四模块架构全面分析这些方法,并回顾当前的数据集和评估方法。最后,我们确定了未来研究的三个有前景的方向。
参考文献
- [Achiam et al., 2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4技术报告。arXiv预印本 arXiv:2303.08774, 2023。
- [Bao et al., 2023] Keqin Bao, Jizhi Zhang, Yang Zhang, Wenjie Wang, Fuli Feng, and Xiangnan He. Tallrec: 一种有效且高效的调优框架,以对齐大型语言模型与推荐。Recsys, 第1007–1014页, 2023。
- [Cai et al., 2024] Shihao Cai, Jizhi Zhang, Keqin Bao, Chongming Gao, and Fuli Feng. Flow: 一个同时增强推荐和用户代理的反馈循环框架。arXiv预印本 arXiv:2410.20027, 2024。
- [Cantador et al., 2011] Iván Cantador, Peter Brusilovsky, and Tsvi Kuflik. 第二次关于推荐系统中信息异质性和融合的工作坊(HetRec2011)。Recsys, 第387–388页, 2011。
- [Corecco et al., 2024] Nathan Corecco, Giorgio Piatti, Luca A Lanzendörfer, Flint Xiaofeng Fan, and Roger Wattenhofer. 一个基于LLM的推荐系统环境。arXiv预印本 arXiv:2406.01631, 2024。
- [Fang et al., 2024] Jiabao Fang, Shen Gao, Pengjie Ren, Xiuying Chen, Suzan Verberne, and Zhaochun Ren. 一个多代理对话推荐系统。arXiv预印本 arXiv:2402.01135, 2024。
- [Friedman et al., 2023] Luke Friedman, Sameer Ahuja, David Allen, Zhenning Tan, Hakim Sidahmed, Changbo Long, Jun Xie, Gabriel Schubiner, Ajay Patel, et al. 在对话推荐系统中利用大型语言模型。arXiv预印本 arXiv:2305.07961, 2023。
- [Guo et al., 2024] Taicheng Guo, Chaochun Liu, Hai Wang, Varun Mannam, Fang Wang, Xin Chen, Xiangliang Zhang, and Chandan K Reddy. 知识图谱增强的语言代理推荐。arXiv预印本 arXiv:2410.19627, 2024。
- [Harper and Konstan, 2015] F Maxwell Harper and Joseph A Konstan. MovieLens数据集:历史和背景。ACM TIIS, 5(4):1–19, 2015。
- [He et al., 2017] Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. 神经协同过滤。The WebConf, 第173–182页, 2017。
- [He et al., 2023] Zhankui He, Zhouhang Xie, Rahul Jha, Harald Steck, Dawen Liang, Yesu Feng, Bodhisattwa Prasad Majumder, Nathan Kallus, and Julian McAuley. 作为零样本对话推荐者的大型语言模型。CIKM, 第720–730页, 2023。
- [Hou et al., 2024] Yupeng Hou, Junjie Zhang, Zihan Lin, Hongyu Lu, Ruobing Xie, Julian McAuley, and Wayne Xin Zhao. 大型语言模型是推荐系统的零样本排序器。ECIR, 第364–381页, 2024。
- [Hu et al., 2008] Yifan Hu, Yehuda Koren, and Chris Volinsky. 用于隐式反馈数据集的协同过滤。ICDM, 第263–272页, 2008。
- [Huang et al., 2023] Xu Huang, Jianxun Lian, Yuxuan Lei, Jing Yao, Defu Lian, and Xing Xie. 推荐AI代理:集成大型语言模型进行交互式推荐。arXiv预印本 arXiv:2308.16505, 2023。
- [Jannach et al., 2021] Dietmar Jannach, Ahtsham Manzoor, Wanling Cai, and Li Chen. 对话推荐系统的调查。CSUR, 54(5):1–36, 2021。
- [Kang and McAuley, 2018] Wang-Cheng Kang and Julian McAuley. 自注意力序列推荐。ICDM, 第197–206页。IEEE, 2018。
- [Lei et al., 2020] Wenqiang Lei, Gangyi Zhang, Xiangnan He, Yisong Miao, Xiang Wang, Liang Chen, and Tat-Seng Chua. 图上的交互路径推理用于对话推荐。KDD, 第2073–2083页, 2020。
- [Li et al., 2018] Raymond Li, Samira Ebrahimi Kahou, Hannes Schulz, Vincent Michalski, Laurent Charlin, and Chris Pal. 深度对话推荐。NuerIPS, 31, 2018。
- [McAuley et al., 2015] Julian McAuley, Christopher Targett, Qinfeng Shi, and Anton Van Den Hengel. 基于图像的风格和替代品推荐。SIGIR, 第43–52页, 2015。
- [Moon et al., 2019] Seungwhan Moon, Pararth Shah, Anuj Kumar, and Rajen Subba. Opendialkg: 基于知识图谱的注意力机制的可解释对话推理。ACL, 第845–854页, 2019。
- [Nie et al., 2024] Guangtao Nie, Rong Zhi, Xiaofan Yan, Yufan Du, Xiangyang Zhang, Jianwei Chen, Mi Zhou, Hongshen Chen, Tianhao Li, Ziguang Cheng, et al. 一种结合LLM和搜索引擎的混合多代理对话推荐系统。Recsys, 第745–747页, 2024。
- [Ning et al., 2024] Liang-bo Ning, Shijie Wang, Wenqi Fan, Qing Li, Xin Xu, Hao Chen, and Feiran Huang. Cheatagent: 通过LLM代理攻击基于LLM的推荐系统。KDD, 第2284–2295页, 2024。
- [Park et al., 2023] Joon Sung Park, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. 生成代理:人类行为的交互式仿真。AASUIST, 第1–22页, 2023。
- [Patil et al., 2023] Shishir G Patil, Tianjun Zhang, Xin Wang, and Joseph E Gonzalez. Gorilla: 连接大量API的大型语言模型。arXiv预印本 arXiv:2305.15334, 2023。
- [Schick et al., 2023] Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: 语言模型可以自学使用工具。NuerIPS, 卷36, 2023。
- [Shao et al., 2024] Minglai Shao, Hua Huang, Qiyao Peng, and Hongtao Liu. Ulmrec: 以用户为中心的大型语言模型用于顺序推荐。arXiv预印本 arXiv:2412.05543, 2024。
- [Shen et al., 2024] Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, and Yueting Zhuang. Hugginggpt: 用ChatGPT及其朋友解决AI任务。36, 2024。
- [Shi et al., 2024] Wentao Shi, Xiangnan He, Yang Zhang, Chongming Gao, Xinyue Li, Jizhi Zhang, Qifan Wang, and Fuli Feng. 大型语言模型是长期推荐的学习规划者。SIGIR, 第1893–1903页, 2024。
- [Shu et al., 2024] Yubo Shu, Haonan Zhang, Hansu Gu, Peng Zhang, Tun Lu, Dongsheng Li, and Ning Gu. RAH! RecSys–Assistant–Human: 一个人类中心的基于LLM代理的推荐框架。IEEE TCSS, 2024。
- [Thakkar and Yadav, 2024a] Param Thakkar and Anushka Yadav. 使用多模态、自主、多代理系统的个性化推荐系统。arXiv预印本 arXiv:2410.19855, 2024。
- [Thakkar and Yadav, 2024b] Param Thakkar and Anushka Yadav. 使用多模态、自主、多代理系统的个性化推荐系统。arXiv预印本 arXiv:2410.19855, 2024。
- [Wang et al., 2023a] Lei Wang, Jingsen Zhang, Hao Yang, Zhiyuan Chen, Jiakai Tang, Zeyu Zhang, Xu Chen, Yankai Lin, Ruihua Song, Wayne Xin Zhao, et al. 基于大型语言模型代理的用户行为模拟。arXiv预印本 arXiv:2306.02552, 2023。
- [Wang et al., 2023b] Yu Wang, Zhiwei Liu, Jianguo Zhang, Weiran Yao, Shelby Heinecke, and Philip S Yu. DRDT: 基于LLM的顺序推荐的动态反射与发散思维。arXiv预印本 arXiv:2312.11336, 2023。
- [Wang et al., 2024a] Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, et al. 关于基于大型语言模型的自主代理的调查。Frontiers of Computer Science, 18(6):186345, 2024。
- [Wang et al., 2024b] Yancheng Wang, Ziyan Jiang, Zheng Chen, Fan Yang, Yingxue Zhou, Eunah Cho, Xing Fan, Yanbin Lu, Xiaojiang Huang, and Yingzhen Yang. Recmind: 用于推荐的大型语言模型驱动的代理。Findings of NAACL, 第4351–4364页, 2024。
- [Wang et al., 2024c] Zhefan Wang, Yuanqing Yu, Wendi Zheng, Weizhi Ma, and Min Zhang. MACRec: 一种多代理协作推荐框架。SIGIR, 第2760–2764页, 2024。
- [Wu et al., 2022] Le Wu, Xiangnan He, Xiang Wang, Kun Zhang
参考 Paper:https://arxiv.org/pdf/2502.10050
更多推荐
所有评论(0)