论文笔记-Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation-AAAI‘2025

论文笔记-Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation-AAAI'2025

sanshui

1136人浏览 · 2025-03-14 23:33:06

sanshui · 2025-03-14 23:33:06 发布

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

AAAI-25

论文地址：https://arxiv.org/abs/2408.09698

代码仓库：https://github.com/YuyangYe/MLLM-MSR

Abstract

研究现状

大型语言模型(Large Language Models）的最新进展在推荐系统(RSs)领域显示了巨大的潜力。大多数现有的研究都集中在将用户行为日志转换为文本提示，并利用提示调优等技术来启用大型语言模型来完成推荐任务。
现有领域存在的问题 ⚠️重点关注

最近的研究兴趣在多模态推荐系统中增长，该系统使用模态融合技术集成来自图像、文本和其他来源的数据。这对现有的仅依赖文本模态信息的基于llm的推荐范式提出了新的挑战。此外，尽管已经出现了能够处理多模态输入的多模态大语言模型(Multimodal Large Language Models, mllm)，但如何为mllm配备多模态推荐功能在很大程度上仍未得到探索。
针对现有问题，你的解决方案（宏观的描述） we propose … introduce ⚠️重点关注

本文提出了多模态大语言模型增强的多模态顺序推荐(MLLM-MSR)模型。为了捕获动态用户偏好，设计了一种两阶段的用户偏好汇总方法。
具体解决方案是什么… （具体的细节）

首先利用基于mllm的项目摘要器提取给定项目的图像特征并将图像转换为文本。然后，基于基于llm的用户汇总器，采用循环用户偏好汇总生成范式来捕获用户偏好的动态变化(受RNN启发)。最后，为了使MLLM能够完成多模态推荐任务，提出使用监督微调(SFT)技术对基于MLLM的推荐器进行微调。
实验结果，超过SoTA多少

对各种数据集（MicroLens、 Amazon-baby 、Amazon-game）的广泛评估验证了MLLM-MSR的有效性，展示了其捕获和适应用户偏好不断变化的动态的卓越能力。

Introduction

挑战

将多模态大型语言模型(MLLM)集成到多模态顺序推荐系统中会引入一系列值得注意的挑战。

首先，处理顺序多模态数据的固有复杂性和计算需求，特别是多个有序图像输入，极大地限制了这些系统的可扩展性和效率。

此外，传统的MLLM在理解用户交互和偏好的时间动态方面往往表现出局限性，特别是在顺序多模态交互的背景下。这个关键的限制削弱了系统准确捕捉和反映用户兴趣随时间变化的能力。

此外，针对特定推荐场景微调多模态大语言模型(MLLM)，同时避免过度拟合并保持预训练期间获得的泛化性，这是一个重大挑战。这些障碍强调了对创新方法的需求，这些方法可以导航多模态顺序数据的复杂性，确保可以有效地利用MLLM来增强推荐系统。

解决方案

为了应对这些挑战，本文介绍了多模态大语言模型增强的多模态顺序推荐(MLLM-MSR)，这是一种利用MLLM的能力来有效增强和集成多模态项目数据的开创性方法。

具体来说，引入了一种多模态用户偏好推断方法，该方法将传统的多模态融合与序列建模技术与多模态模型相结合。

最初，我们使用MLLM将每个项目的视觉和文本数据转换为连贯的文本描述，并通过初步研究证明了信息的完整性。

随后，利用通过MLLM处理的丰富项目信息，我们开发了一种创新的基于llm的循环方法来推断用户偏好，捕捉这些偏好的时间动态。该方法通过利用大型语言模型优越的文本处理能力，解决了上述处理顺序图像输入的挑战，并通过提供详细的用户偏好，与传统的基于表示的方法相比，提高了推荐的可解释性。

此外，我们对MLLM进行了微调，利用精心设计的一组提示，将丰富的项目数据、推断的用户偏好和用户-项目交互的真实值集成在一起，使其发挥推荐功能。在开源MLLM上的监督微调(SFT)过程使模型具有准确匹配用户偏好与潜在项目的能力，从而增强了推荐的个性化和准确性。

为了验证MLLM-MSR的有效性，在来自不同领域的三个公开可用数据集（MicroLens、 Amazon-baby 、Amazon-game）上进行了广泛的实验，证实了方法的优越性能。

主要贡献

第一次尝试微调多模态大型模型来解决顺序多模态推荐的挑战，其中提出的微调策略在推荐性能方面取得了显着改善。
引入了一种新的基于mllm的图像总结方法，以循环地总结用户在多模态上的偏好，促进对用户交互和兴趣随时间的深入理解。
提出的方法在各种数据集上得到了广泛的验证，证明了其在提高建议的准确性和可解释性方面的有效性。

Related Work

Multimodal Sequential Recommendation

多模式信息增强SRs的发展利用了额外的上下文信息来提高推荐质量。SRs中的融合方法分为早期、晚期和混合方法。

早期的融合技术涉及侵入性方法，在输入层面整合各种模式，通过连接和门控等技术增强初始特征表示(Tang and Wang 2018;Sun et al. 2019;Lei, Ji, and Li 2019)。此外，非侵入性早期融合采用注意机制在处理前合并多个属性(Rendle et al. 2019;Liu et al. 2021a)。

相比之下，后期融合在最后阶段之前合并来自不同模块的特征序列，如(Zhang et al. 2019;Ji et al. 2020;Du et al. 2023)。

混合融合方法通过评估模态间关系，灵活地将模态融合和顺序建模结合起来，提供了多用途的融合策略(Zhao, Lee, and Wu 2020;Hu et al. 2023)。

LLM for Recommendation

将大型语言模型(Large Language Models, llm)集成到推荐系统中受到BERT (Devlin et al. 2018)和GPT-3 (Brown et al. 2020)等基础模型的深刻影响，这证明了大型语言模型在处理大量文本数据以深入理解用户行为方面的潜力。这一基础已经被BERT4Rec (Sun等人，2019)等后续模型和RLMRec (Ren等人，2024)等创新模型所扩展，RLMRec通过分析详细的用户-项目交互来定制大型语言模型功能，以生成个性化的、上下文感知的建议。

在目前的情况下，推荐系统中的大模型应用分为三种主要方法:基于嵌入的、基于令牌的和直接模型应用(Wu et al. 2023;Cao et al. 2024)。

基于嵌入式的应用，如(Cui等人，2022;Liu et al. 2024b)使用llm从项目和用户数据中提取丰富的特征表示，增强系统对用户偏好的理解。

基于令牌的方法，在(Zhai et al. 2023)等工作中得到了强调，专注于生成捕捉语义含义和潜在用户偏好的令牌，并将这些数据集成到推荐逻辑中。最后，直接模型应用(Hou et al. 2024;Geng et al. 2022)涉及使用llm作为端到端解决方案，其中模型根据用户查询和配置文件直接生成建议，提供简化且可能更强大的系统架构。

此外，还出现了基于多模态大模型的推荐框架，旨在处理涉及多模式信息的场景。这些框架集成和处理不同的数据类型，如图像、文本和视频，以提高推荐系统的准确性和用户体验(Liu et al. 2024c;Zhang et al. 2024a)。

Preliminary

问题定义

顺序多模态推荐问题的问题表述。本工作中使用的数据集包含用户和项目之间的交互记录。给定一个用户u，让我们首先定义u的历史用户行为序列为 $S_u = [i^1_u，…i^n_u]$ ，其中， $I^i$ 表示用户通过点击、购买、观看等行为与之进行交互的第i项，n表示用户行为序列的长度。此外，每个项目对应一个文字描述W和一个图像I(例如，产品图，视频封面)。因此，我们的问题可以表述如下。

定义 1 (Multimodal Sequential Recommendation)

给定具有相应历史行为序列 $S_u$ 的用户u，包括文本和视觉数据，以及候选项目 $I_c$ ，多模态顺序推荐的目标是预测用户u的下一个交互项目 $I^{n+ 1}_u$ (例如，点击概率)与候选项目 $I^c_u$ 的概率。表示为 $g_u: I_c→R$ 。

多图像摘要的有效性

当前的多模态大语言模型(mllm)在处理多个图像输入方面面临挑战，限制了它们在顺序多模态分析中的有效性。为了克服这个问题，我们引入了一种图像摘要方法，该方法利用mlm来转换和总结图像内容。使用基本的顺序推荐器GRU4Rec对真实世界的数据集(详见实验部分)评估了该技术的有效性。在我们的方法中，我们使用LLaVA (Liu et al. 2023a, 2024a)使用“请总结图像”这样的简单提示来生成图像摘要。使用BERT将这些摘要转换为潜在向量(Devlin et al. 2018)，然后将其输入GRU4Rec模型。该方法针对VGG19的直接图像表示(Simonyan 2014)进行基准测试，通过AUC指标评估性能。

表1详细列出了性能。结果表明，使用图像摘要可以使GRU4Rec模型执行与VGG19相比较的直接处理，证实我们的图像摘要方法保留了序列建模中必要的语义信息。这一初步验证强调了我们的方法在解决与处理多个有序图像相关的挑战方面的有效性。

Technical Details

本节将介绍我们提出的MLLM- msr框架的技术细节，该框架包含两个主要组件，即多模态用户偏好推理和基于MLLM的优化推荐器，如图1所示。

多模态用户偏好推理

在顺序推荐的上下文中，一种常见的方法是学习用户表示，并通过计算亲和力分数来预测与候选项目的未来交互。与利用嵌入的传统方法不同，llm通常直接在令牌（语义）级别分析用户偏好和交互概率。本节将详细介绍我们的方法如何使用多模态大型语言模型(mllm)来专门解决与多模态推荐场景相关的挑战。

多模态item摘要

为了有效地预测用户偏好，分析历史项目序列是至关重要的。在多模态推荐场景中，处理多个图像输入对mllm来说是一个重大挑战，特别是在维护这些输入的顺序和将文本信息与相应的图像对齐方面。为了克服这些问题，我们提出了一种多模态条目摘要方法，该方法通过设计有效的提示来整合条目的多模态数据，将图像的多模态信息汇总为统一的文本描述，从而简化了处理过程。

Prompt设计坚持多模态信息融合的基本方法。项目信息可以分为文字描述和图像。因此，在初始阶段，使用不同的提示(即文本摘要和图像描述提示)来引导多模态大语言模型(Multimodal Large Language Models, mllm)独立处理这些模态，以确保对每个模态的理解更彻底，并提取出详细的特征。确保在统一分析中经常遗漏的细微特征被捕获。为了确保两种模式对项目建模的贡献相同，文本摘要和图像描述的输出被校准到相似的长度。在独立分析了每种形态之后，我们的设计使用融合提示将文本和视觉信息的见解集成在一起。这种方法与传统的多模式推荐策略相一致，强调综合不同的数据类型来创建一个全面的项目概况，增强对项目的多方面理解。

迭代的用户偏好推理

在顺序多模式推荐框架中，实现详细的个性化依赖于对用户偏好的准确理解。多模态大语言模型(Multimodal Large Language Models, mllm)的出现标志着对多模态信息理解的重大进步。然而，正如我们上面所介绍的，它们在处理顺序多模态数据方面很困难。虽然我们的多模态项目汇总方法有效地将多模态信息整合到一个统一的item汇总中，但是当历史序列变长时，这种复杂性仍然导致输出不稳定和随机，导致提示过长。因此，这将导致顺序推荐系统的次优性能。

为了解决这些挑战，我们的方法受到循环神经网络(RNNs)的启发，⚠️采用提示序列建模，通过交互序列迭代捕获用户偏好。在rnn中，每个输出都受到当前输入和前一个状态的影响，从而促进跨序列的上下文感知。我们将项目交互划分为几个块，每个块涵盖一个定义会话中的交互，将长多模态序列转换为简洁的文本叙述，依次表示用户的历史交互。这种分割使我们的方法能够动态地表示用户偏好，有效地克服了mllm在处理顺序和多模态数据方面的局限性。通过在每个会话中加入提示驱动模块，我们的方法集成了以前交互的见解，以不断改进对当前用户偏好的理解。这种迭代过程对于准确捕获用户偏好的动态非常重要，并且比传统的基于表示的模型提供了更多可解释的描述，增强了详细案例研究的潜力。

具体来说，当我们最初为每个项目生成项目多模式摘要时，我们将这些摘要与提示配对，指导llm根据顺序叙述推断用户偏好。例如，第一个块中的初始提示被设计为从第一个时间戳的项目交互的时间顺序列表中总结用户的初始兴趣。随后，在接下来的会话中，更新汇总首选项的提示如图2所示。我们的方法使用提示序列建模，通过详细分析每个交互来迭代地理解用户偏好，从而有效地管理长、多模态序列的挑战。

微调基于 MLLM的推荐器

在使用上述方法收集用户偏好之后，我们可以对开源的多模态大型语言模型(如LLaVA1)进行监督微调，该模型擅长理解图像。该模型将通过SFT构建一个多模式推荐系统。根据顺序推荐的定义，给定用户-物品交互，基于mllm的推荐系统利用包含获得的用户偏好的提示符，给定项目的文本描述和图像以及设计的系统指令提示预测用户将与候选项目交互的概率。具体来说，为调优的MLLM推荐模块设计的提示如图3所示，其中我们将输出限制为仅包含“yes”或“no”，以避免有关预测标签的无关信息。因此，根据预测的第一个新令牌的概率得分，可以计算出物品交互的概率:

$p=\frac{p(\mathrm{'yes'})}{p(\mathrm{'yes'})+p(\mathrm{'no'})}$

为了构建基于多模态大语言模型(multimodal Large Language Models, MLLMs)的多模态顺序推荐系统，我们实现了监督微调（SFT）来优化模型参数。这个微调过程包括调整模型，以尽量减少预测和实际用户交互之间的差异。我们的数据集构建策略采用负采样，这是推荐系统中常用的一种训练技术，其中每个积极的用户-项目交互都与多个表示用户未与之交互的项目的负样本相结合。这种方法有助于模型通过对比学习区分相关和不相关的项目，从而提高其预测准确性。

该模型在包含用户-项目交互序列的数据集上进行训练，每个交互被封装为用户偏好、项目描述和图像的序列。微调利用下一个令牌预测范式，训练模型根据前面的令牌预测序列中的后续令牌。这确保了从输入序列生成连贯和上下文相关的输出。有监督微调损失函数定义为:

$L=-\sum_{i=1}^L\log P(v_i|v_{<i},\mathcal{I}),$

其中 $v_i$ 表示提示文本的第i个令牌，L表示提示长度，I为给定图像。概率 $P(v_i|v_{<i}, I)$ 是使用下一个令牌预测框架中的mllm计算的，它最大化了给定提示的基础真令牌的可能性。这可以确保模型根据提供的上下文学习准确地预测后续令牌，这对于生成精确的和上下文感知的建议至关重要。具体而言，我们采用LoRA（Hu et al. 2021）技术来遵循参数高效微调框架（PEFT），从而加速训练过程。

Experiments

实验设置

数据集描述

我们的实验评估利用了来自不同推荐系统领域的三个开源真实数据集。这些数据集包括Microlens数据集（Ni et al. 2023），具有用户-物品交互，视频介绍和视频封面图像; Amazon-Baby数据集;和Amazon-Game数据集（He and McAuley 2016; McAuley et al. 2015），所有这些数据集都包含用户-物品交互，产品描述和图像。这些选择使得能够对不同的推荐系统进行全面的分析。我们通过删除不频繁的用户和项目来预处理每个数据集，以确保用户历史序列符合我们的最小长度标准。此外，我们在训练过程中实现了1：1的负采样比例，并在评估中实现了1：20的比例。这些数据集的更多详细信息见表2。

基线方法

为了评估我们提出的LMM-MSR方法的有效性，我们选择了一些比较方法，这些方法可以分为以下几组：

基本SR模型：

这些模型使用包括ID和文本信息的项目属性。我们选择性地整合这些属性中最有效的信息，以实现最佳性能。GRU4Rec（Hidasi et al. 2015）：利用门控递归单元（GRU）对项目之间的顺序依赖关系进行建模。SASRec（Kang和McAuley 2018）：采用自我注意机制来捕获长期依赖性。

多模态推荐模型：

MMGCN（Wei et al. 2019）：使用消息传递方案将多模态特征集成到基于图的框架中。MGAT（Monti，Bronstein和Bresson 2017）：采用图形注意力网络通过模态来解开个人兴趣。

多模态特征增强SR模型：

GRU4RecF，SASRecF：GRU4Rec和SASRec的多模态特征增强适应。Trans2D（Zhao，Lee和Wu 2020）：利用整体融合来整合不同维度的功能。MMSR（Hu et al. 2023）：开发一种基于图的方法，用于多模态特征的自适应融合，该方法根据模态的顺序关系动态调整模态的融合顺序。

基于LLM的SR模型：

TALLREC（Bao et al. 2023）：使用LLM通过SFT进行序列推荐，专门处理文本输入。LLaVA w/o SFT：使用LLaVA作为推荐器，而无需对推荐进行特定的微调。

指标

为了评估基线方法和我们提出的用于多模式序贯推荐的MLLM-MSR的性能，我们采用AUC、HR@5和NDCG@5作为评估指标。为了确保公平的比较，我们在所有基线方法和我们的方法中标准化了候选项集的大小。

实现细节

我们的实验是在一个配备八个A800 80 GB GPU的Linux服务器上进行的。我们使用Llava-v1.6-mistral-7 b进行图像描述和推荐任务，并使用Llama 3 -8b-instruction 2总结用户偏好。对于监督微调（SFT）过程，我们使用PyTorch Lightning库，使用LoRA，等级为8。优化由AdamW优化器处理，学习率为2 e5，批量大小为1，将梯度累积步长设置为8，epoch设置为10。对于分布式训练，我们使用ZeRO阶段2实现了Deepspeed [28]。此外，我们将MLLM的最大令牌长度设置为512，并将递归偏好推理中的每个块的项目数设置为3。

性能分析

比较方法和我们的MLLMMSR的性能如表3所示，其中所有结果均使用5倍交叉验证和各种随机种子获得，并达到95%置信水平。很明显，在我们的评估中，MLLM-MSR在分类和排名方面始终优于所有其他指标，强调了我们推荐系统的个性化准确性。

我们还观察到了更多的见解：

首先，与基本的顺序推荐（SR）模型相比，我们的适应方法结合了多模态输入，特别是SASRec，显示出明显更好的结果。这强调了顺序推荐框架内多模态整合的关键作用，并证实了基于自我注意力的模型在处理多模态和顺序输入方面的有效性。

此外，MMSR区别于其他非LLM基线，突出了在SR任务中将多模态融合模块与顺序建模组件集成的重要性，从而间接支持我们对用户偏好推断的提示设计思想。相反，纯粹的多模式推荐模型，如MMGCN和MGAT，由于缺乏专用的顺序建模组件，表现出较低的性能。这表明，为了在SR中获得最佳效果，多模态和顺序处理能力的整合是必不可少的。

最后，在基于大型语言模型（LLM）的SR模型领域，我们的方法在没有特定微调的情况下显着优于LLaVA。这一成功验证了我们为SR任务设计的策略性提示的有效性。此外，我们的方法优于TALLREC，证明了我们在整合多模态信息和解锁大型多模态模型的潜力方面的成功，与仅使用文本信息的其他基于LLM的方法相比。这种比较优势强调了先进的MLLM训练技术和多模态数据处理在增强顺序推荐系统中的战略应用的整合。

消融实验研究

为了评估MLLM-MSR框架中某些组件的单独贡献，我们开发了MLLM-MSR的几个变体，每个变体描述如下：

$MLLM-MSR_R$ ：该变体采用直接用户偏好推断而不是递归方法。它使用历史交互数据的整个时间顺序来推断用户偏好。

$MLLM-MSR_I$ ：在这个版本中，我们省略了项目摘要中的图像摘要组件。它仅依赖文本数据进行用户偏好推断，同时仍然将图像信息纳入推荐模块中，利用当前MLLM可以轻松实现的功能。

如图4所示，在三个不同数据集的评估中，我们的主要模型MLLM-MSR始终优于其变体 $MLLM-MSR_R$ 和 $MLLM-MSR_I$ ，证明了其关键组件的重要作用。采用直接用户偏好推断的 $MLLM-MSR_R$ 变体实现了次优性能。这一结果验证了我们模型的递归方法在捕捉用户偏好动态演变方面的重要性，表明我们的方法可以更准确地反映当前兴趣，并减少冗长提示的负面影响。此外， $MLLM-MSR_I$ 变体的性能较差，不包括图像摘要，仅依赖于文本数据进行用户偏好推断，说明了集成多模态数据的重要性。这种集成对于理解不同模态的用户偏好至关重要，从而显著补偿文本信息的不完整性。

参数分析

在本节中，我们首先分析MLLM-MSR模型的经常性用户偏好推断组件的最佳块大小。如图5所示，在块大小上取得适当的平衡是至关重要的;太小的块大小简化了直接推理的方法，由于有限的上下文跨度，可能会错过用户偏好的动态演变。相反，太大的块大小导致长提示，增加计算负载并减少可用于有效捕获时间动态的块的数量，从而降低系统的自适应能力。优化的块大小可确保模型有效地处理顺序数据，并动态适应用户行为的变化。

此外，我们还评估了上下文长度对模型预测性能的影响。通过在用户偏好生成过程中固定输出长度，我们评估了不同的上下文长度如何影响推荐结果。结果如图6所示。我们发现短的上下文长度会导致信息丢失，从而导致次优预测。然而，一旦上下文长度达到一定阈值，结果就会稳定下来，这表明大模型具有很强的汇总能力，可以在特定的最佳范围内捕获所有必要的信息。这证明了选择适当的上下文长度以最大化信息效用而不招致不必要的计算复杂度的重要性。

Conclusion

在这项研究中，我们提出的模型，多模态大语言模型增强的多模态顺序推荐（MLLM-MSR），有效地利用MLLM多模态顺序推荐。通过一个新的两阶段用户偏好汇总过程和SFT技术的实现，MLLM-MSR展示了一个强大的能力，以适应和预测跨各种数据集的动态用户偏好。我们的实验结果验证了MLLM-MSR的出色性能相比，现有的方法，特别是在其适应不断变化的偏好。本文介绍了MLLM的创新使用，通过整合不同的模式，丰富了推荐过程，提高了个性化和准确性的建议，同时提供了额外的解释性，通过详细的用户偏好分析。