无需微调LLMs即可实现LLM代理的低成本持续适应
在人工智能领域,大型语言模型(LLM)代理正成为解决复杂任务的强大工具。这些代理能够自主执行复杂任务,通过交互、推理和决策来解决问题,通常还可以访问外部工具、记忆或环境。从深度研究代理到工具增强执行系统,再到代码生成代理,LLM代理在复杂科学和工程任务中展现出强大的能力。
然而,当前的LLM代理通常面临一个两难选择:要么是僵化的静态系统,依赖手工制作的反思工作流;要么是计算密集型系统,需要通过梯度更新来微调LLM模型参数。这两种方法都有明显的局限性,前者缺乏灵活性,后者则成本高昂且不适合持续学习和在线学习。
今天,我们要介绍一项突破性研究——Memento: Fine-tuning LLM Agents without Fine-tuning LLMs,这项研究由UCL AI Centre、华为诺亚方舟实验室等多家机构的研究人员共同完成,提出了一种全新的学习范式,无需微调底层LLMs,就能实现LLM代理的低成本持续适应。
研究团队与机构
这项研究由以下机构的研究人员共同完成:
- UCL AI Centre(伦敦大学学院人工智能中心)
- Huawei Noah's Ark Lab, UK(华为诺亚方舟实验室英国分部)
- Jilin University(吉林大学)
- Institute of Automation, CAS(中国科学院自动化研究所)
论文的主要作者包括Huichi Zhou、Yihang Chen(共同第一作者)、Siyuan Guo、Xue Yan、Kin Hei Lee、Zihan Wang、Ka Yiu Lee、Guchun Zhang、Kun Shao、Linyi Yang(通讯作者)和Jun Wang(通讯作者)。
技术背景:当前LLM代理的困境
目前,LLM代理主要遵循两种范式,每种都存在根本性局限:
第一种范式是构建具有固定工作流和硬编码推理的专业框架。这种方法在狭窄任务上效果良好,但缺乏灵活性。部署后,这类代理是静态的:它们既不整合在线信息,也不适应新情况。
第二种范式专注于通过底层LLMs的参数更新(通过监督微调或强化学习)来更新LLM本身,这允许更灵活的行为,但计算成本高昂。这些方法对于持续适应和在线学习效率低下,对于部署在开放场景中的代理来说不切实际。
这引出了一个核心研究挑战:如何构建能够从变化的环境中持续学习的LLM代理,而无需承担微调底层LLMs的过高成本?
受人类记忆机制的启发,研究人员通过提出基于记忆的学习框架来解决这一挑战,该框架能够在不修改底层LLMs的情况下实现持续适应。人类的表现稳步提升,因为每次经历都会被(i)编码为情景记忆痕迹,(ii)在睡眠依赖的巩固过程中提炼为抽象规则,(iii)通过多巴胺驱动的信用分配选择性强化,以及(iv)在类似问题出现时通过基于案例或类比的推理来检索。
Memento方法详解:基于记忆的马尔可夫决策过程
Memento是一个非参数的、即时学习的基于案例推理(CBR)框架,实例化为一个基于记忆的马尔可夫决策过程(MDP)的规划器-执行器架构。Memento包含三个主要组件:(i)规划器,(ii)启用工具的执行器,以及(iii)存储过去轨迹作为情景记忆的不断增长的案例库。
基于记忆的马尔可夫决策过程(M-MDP)
研究人员将CBR代理的顺序决策过程建模为基于记忆的马尔可夫决策过程(M-MDP),定义如下:
定义3.1(基于记忆的马尔可夫决策过程):一个基于记忆的马尔可夫决策过程是一个元组⟨𝒮,𝒜,𝒫,ℛ,γ,ℳ⟩,其中𝒮是状态空间,𝒜是动作空间,𝒫:𝒮×𝒜→∆(𝒮)是转移动态,ℛ:𝒮×𝒜→ℝ是奖励函数,γ∈[0,1)是折扣因子,ℳ=(𝒮×𝒜×ℝ)*是记忆空间。

与标准MDP的关键区别在于,我们引入了一个记忆空间作为过去经验的集合。在CBR代理设置中,状态空间和动作空间都定义为预定义词汇表𝒱上所有有限长度序列的集合。
在M-MDP框架下,CBR代理的行为可以形式化描述如下:在时间步t,我们维护一个案例库(即记忆)Mt={ci}Nti=1,每个案例ci是一个元组(si,ai,ri),Nt是当前案例库中的案例数量。给定当前状态st,CBR代理首先检索一个案例ct∼µ(⋅∣st,Mt),然后通过LLM重用和调整它,即at∼pLLM(⋅∣st,ct)。这里µ表示案例检索策略。执行动作at后,CBR代理接收奖励rt=ℛ(st,at)并观察下一个状态st+1∼𝒫(⋅∣st,at)。CBR代理还将新案例保留在案例库中,即Mt+1=Mt∪{(st,at,rt)}。
定义3.2(基于案例推理的代理):基于案例推理的代理是基于当前状态和过去经验的有限记忆做出决策的代理。形式上,令s∈𝒮表示当前状态;M∈ℳ表示当前案例库,由过去案例c组成;a∈𝒜表示动作;µ(c∣s,M)表示案例检索策略,给定当前状态s,在M上分配概率分布;pLLM(a∣s,c)表示大型语言模型(LLM)在给定当前状态s和检索到的案例c∈M的条件下的动作似然。那么,CBR代理的总体策略π定义为:
π(a∣s,M)=\sum_{c∈M}µ(c∣s,M)pLLM(a∣s,c)软Q学习用于CBR代理
为了优化公式(1)中的CBR策略π,我们的目标是在LLM组件pLLM固定的情况下学习案例检索策略µ。在这种情况下,µ的"动作"是从案例库M中选择一个案例c=(s,a,r)。为了优化它同时鼓励检索案例的多样性,我们应用最大熵RL框架,并推导出以下优化目标:
J(π)=E_{τ∼p}[\sum_{t=0}^{T-1}[ℛ(s_t,a_t)+αℋ(µ(⋅∣s_t,M_t))]]其中ℋ表示熵,α表示最终奖励中熵权重的超参数。在这个框架下,值函数可以定义为:
V^π(s_t,M_t)=\sum_{c∈M_t}µ(c∣s_t,M_t)[Q^π(s_t,M_t,c)−α\log µ(c∣s_t,M_t)]同样,给定状态,采取"动作"(即选择案例)的Q值函数可以定义为:
Q^π(s_t,M_t,c_t)=E_{a∼p_{LLM}(⋅∣s_t,c_t),s_{t+1}∼𝒫(⋅∣s_t,a_t)}[ℛ(s_t,a_t)+γV^π(s_{t+1},M_{t+1})]其中M_{t+1}表示在添加(s_t,a_t,r_t)后更新的记忆。然后,我们可以推导出最优检索策略的闭式解,作为最优Q值的softmax:
µ^*(c∣s,M)=\frac{\exp(Q^*(s,M,c)/α)}{\sum_{c'∈M}\exp(Q^*(s,M,c')/α)}基于状态相似性增强Q学习
如公式(8)所示,我们可以通过TD学习从头开始学习Q函数。然而,由于自然语言形式的复杂状态和案例描述,直接学习Q函数具有挑战性。为此,我们提出通过基于核的估计来近似Q值,遵循情景控制(EC)算法。具体来说,我们维护一个情景记忆𝒟={(s,c,Q)},包括每次交互的状态、检索到的案例和Q值。然后,我们通过参数为θ的核网络kθ(⋅,⋅)来近似Q函数:
Q_{EC}(s,M,c;θ)=\frac{\sum_{(s',c',Q')∈𝒟_c}k_θ(s,s')Q'}{\sum_{(ŝ,ĉ,Ŝ)∈𝒟_c}k_θ(s,ŝ)}其中𝒟_c={(s_i,c_i,Q_i)∈𝒟:c_i=c}表示情景记忆𝒟中存储的具有相同检索案例c的过去交互。通过将公式(9)代入公式(8),我们可以通过TD学习优化核参数θ来学习Q函数,即:
ℒ(θ)=E_{(s,c,r,s',M,M')}[(Q_{EC}(s,M,c;θ)−[r+γα\log\sum_{c'∈M'}\exp(Q_{EC}(s',M',c';θ̄))])^2]深度研究代理的实现
研究人员在深度研究场景中实现了通过M-MDP方法学的有状态提示工程,其中代理必须通过与环境迭代交互、调用外部工具、从外部源检索信息以及处理异构数据进行动态推理来解决复杂的长期任务。如图3所示,Memento在两个核心阶段之间交替:基于案例的规划和基于工具的执行。

框架
为了解决长期推理的挑战,Memento遵循规划-行动范式,其中规划器和执行器在交替循环中运行,以迭代推进任务完成。为了有效协调,Memento集成了三个记忆模块:案例记忆(用于高级规划的先前案例的向量化存储)、子任务记忆(活动子任务及其结果的基于文本的存储)和工具记忆(每个子任务的工具交互的基于文本的日志)。
在规划阶段,规划器实例化为LLM驱动的CBR代理,接收任务指令并查询案例记忆以获取相关案例三元组(si,ai,ri)Ki=1,其中si是任务,ai是计划,ri表示成功,K是检索计数。这个过程由案例记忆模块支持,该模块通过基于相似性的检索器或在线更新的Q函数从案例库中检索相关经验,从而使规划器能够利用参数和非参数记忆作为先验。
检索到的案例与当前任务指令连接形成提示,指导LLM为每个子任务生成计划。一旦初始任务被分解,子任务记忆模块协调规划器和执行器之间的交互,记录生成的子任务及其执行结果。每次迭代后,规划器使用累积的执行历史来评估任务完成情况。如果任务未完成,规划器基于更新的上下文重新规划;否则,返回最终结果,并且案例记忆仅在任务完成后用新经验更新。
执行阶段由执行器管理,执行器由通用LLM提供动力,负责使用MCP协议将每个子任务作为自主情节执行。与以前的代理不同,Memento的执行器支持丰富的推理和灵活的工具组合。对于每个子任务,执行器查阅工具记忆,确定适当的工具调用,并更新结果。
案例记忆管理
案例记忆是一个在线增长的案例库Mt,通过写入和读取操作运行,有非参数和参数两种变体。在非参数设置中,写入只是附加(st,at,rt),读取通过相似性检索案例以提高计算效率。在参数设置中,写入还在线更新Q函数以塑造检索分布,而读取由学习的Q函数驱动,从而实现自适应案例选择。
记忆存储:遵循定义3.2中的CBR代理,写入操作在每个时间步t之后将每个历史案例(st,at,rt)附加到案例库Mt:
Write(s_t,a_t,r_t,M_t)=M_{t+1}=M_t∪\{(s_t,a_t,r_t)\}在这个过程中,状态st使用冻结的文本编码器编码,而动作at和奖励rt以其原始形式保留,因为只有状态表示需要向量化以进行后续检索操作。这个写入操作在整个代理执行过程中持续执行,允许案例库逐渐增长为全面和可转移的经验库。通过积累成功和失败,记忆不仅能够进行回顾性分析以避免过去的错误,还能提供成功轨迹以指导未来的规划。
非参数记忆检索:Memento的一个基石是其动态发展的案例库,它支撑着其持续学习能力。在每个规划步骤,这个非参数记忆模块接收任务指令,然后检索相关案例,包括成功和失败案例的混合。这种CBR方法反映了人类的类比学习,其中过去遇到的结果塑造决策。具体来说,我们通过计算当前状态与过去状态之间的语义相似性,从案例库中检索K个最近的过去案例。这种设计遵循主流CBR范式,假设类似问题应该有类似解决方案,从而使代理能够优先考虑其历史背景与当前任务最一致的案例。形式上,非参数记忆的读取操作定义为:
Read_{NP}(s_t,M_t)=TopK_{(s_i,a_i,r_i)∈M_t}sim(enc(s_t),enc(s_i))其中st和Mt分别表示时间步t的查询和案例库。这里,enc(⋅)表示预训练的文本编码器,sim(⋅)表示余弦相似度函数。
参数记忆检索:为了使代理能够选择性地利用高效用案例来增强从过去经验中规划的能力,我们在Memento中通过参数Q函数设计了微分记忆机制。当将新案例写入案例库时,与非参数方法仅将元组附加到公式(12)中不同,参数方法同时在线更新Q函数。同时,由于在Memento中CBR仅应用于规划,CBR规划器可以简化为单步设置而不是多步M-MDP。这种单步设置将公式(10)中的TD目标折叠为即时奖励,从而简化了学习目标。没有自举,更新简化为监督学习范式,避免了非平稳目标。因此,我们可以端到端训练参数Q函数Q(s,c;θ),无需公式(9)中的基于核的估计。相应地,单步Q学习损失可以表述为:
ℒ(θ)=E_{(s,c,r)}[(Q(s,c;θ)−r)^2]其中元组{(s,c,r)}存储在重放缓冲区ℬ中,Q实现为神经网络。注意到深度研究任务中的奖励信号是二元的(r∈{0,1}),我们将均方误差(MSE)目标替换为交叉熵(CE)损失,因为MSE损失在0/1附近遭受梯度消失,而CE损失提供更数值稳定的信号。因此,我们将训练目标重新表述为二元分类损失:
ℒ(θ)=E_{(s,c,r)}[−r\log Q(s,c;θ)−(1−r)\log(1−Q(s,c;θ))]其中Q可以被视为表示概率p(r=1∣s,c;θ)的归一化值,即给定案例库M,检索到的案例c是当前状态s的良好参考的可能性。与非参数方法仅保留新案例不同,参数记忆在写入期间还优化Q函数,使每次更新既能记录新案例又能更新整体Q值景观。
在检索期间,学习的Q函数用于通过公式(7)计算检索策略分布,从中可以采样案例。为了减少案例选择的随机性并增强代理决策过程的可解释性,参数记忆的读取操作应用TopK操作符来选择具有最高Q值的K个案例,这些案例用作规划参考:
Read_P(s_t,M_t)=TopK_{c_i∈M_t}Q(s_t,c_i;θ)通过使用新样本持续更新Q函数,参数记忆模块学习捕捉状态和案例之间的潜在模式,从而产生对案例检索策略µ*的底层分布的更接近近似。
工具使用
除了对长任务执行序列和多轮交互的固有要求外,深度研究任务也对原子动作提出了严格要求,要求代理能够获取外部信息,然后处理、整合和分析它。因此,我们为Memento设计了一套可通过MCP协议访问的工具套件,包括信息检索模块(如搜索引擎和网络爬虫)以及处理和分析多模态信息(包括视频和图像数据以及各种格式的文件)的组件。
外部信息获取:为了支持需要访问最新外部知识(如GAIA、BrowseComp)的开放任务,我们设计了一个搜索工具包,集成了检索和内容获取能力。具体来说,我们使用searxng,这是一个自托管的元搜索引擎,聚合了Google、Bing、Duckduckgo和Brave等多个来源的结果。然后根据与查询上下文的语义相似性对检索到的候选结果进行重新排序,确保相关性和精确性。为了补充这一点,我们集成了Crawl4AI来获取和解析选定结果的完整网络内容,当执行器需要更深入的理解时。换句话说,搜索工具作为基于用户查询中关键词匹配的粗过滤器,而爬虫作为在必要时从检索源中提取详细信息的细粒度机制。
多模态异构信息处理:为了支持对异构数据源的下游推理,我们实现了一个多功能且细粒度的文档处理工具包,自动从广泛的文件类型和模态中提取信息。例如,图像使用视觉语言模型(VLM)进行字幕处理;音频通过自动语音识别进行转录;PowerPoint文件逐张幻灯片解析,并嵌入图像描述;电子表格转换为可读的逐行布局;档案被解包;纯文本和代码文件直接读取;JSON和XML被解析为结构化对象;Word文档转换为Markdown;视频从VLM接收自然语言摘要。对于PDF或不支持的格式,使用Chunkr AI或纯文本解析的后备提取。该工具包为访问和解释跨多种文件类型和模态的内容提供了统一接口,简化了现实场景中异构数据的处理。
推理:推理和分析工具集集成了代码执行和数学计算,以支持Memento框架内的稳健、自动化分析。代码工具提供了一个沙盒环境,用于在统一工作区内编写、运行和管理代码。用户可以创建文件,执行shell或Python命令,并检查输出——所有这些都在持久任务目录中。Python脚本针对安全白名单进行验证,以确保安全执行,支持常用库如numpy、pandas和torch。工作区在步骤之间保持状态,支持迭代开发。这个代理对于解决数据分析、自动化或动态代码生成任务至关重要。补充这一点的是,数学工具处理基本算术运算。
实验结果
研究人员在四个数据集上评估了Memento的性能,每个数据集代表研究挑战的一个不同方面:(i)长期工具使用和规划(GAIA),(ii)实时基于网络的研究(DeepResearcher),(iii)简洁的事实准确性(SimpleQA),以及(iv)人类知识前沿的探索(HLE)。
DeepResearcher结果
我们包含这个数据集来测试实时网络研究、证据检索、跨页面综合和多跳推理。如表1所示,配备MCP工具(如搜索引擎、浏览器)的Memento在七个DeepResearcher基准测试中达到平均66.6%的F1分数,几乎是CoT+RAG基线37.7% F1的两倍。这表明实时、在线检索工具可以与甚至超过精心策划的静态数据库相媲美。

GAIA(验证和测试)结果
为了评估在长期规划、工具编排和执行方面的稳健性,我们采用了GAIA基准测试。Memento在验证集上获得第一名,在测试集上获得第四名,优于大多数现有的代理框架(表2)。值得注意的是,它在验证集和测试集上都超过了广泛使用的开源框架,包括Manus、Aworld和OWL。
对于GAIA验证评估,我们从零开始初始化记忆,并在三次迭代中迭代地将成功和失败的轨迹存储在案例库中。使用GPT-4.1作为规划器,o3作为执行器,Memento在验证集上达到87.88%的准确率。对于GAIA测试集,性能仅基于在验证期间积累的案例库,产生79.40%的准确率。尽管Memento表现出强大的整体性能,但对于需要扩展推理视野和高级工具协调的3级任务仍然存在挑战。

其他基准测试结果
SimpleQA:如图4所示,Memento在SimpleQA上达到95.0%的PM分数,优于所有比较方法,包括WebSailor、WebDancer、WebThinker和Deepseek-r1-React。
Humanity's Last Exam (HLE):在HLE上,Memento达到25.32%的准确率,优于GPT-5、Gemini-2.5 Pro、o3-high和o4-mini-high等模型。

消融研究
研究人员还进行了消融研究,以验证Memento各个组件的贡献。如图1(b)所示,没有CBR的Memento(Memento w/o CBR)在所有基准测试上表现明显较差,证明了基于案例的推理的重要性。此外,参数记忆(Memento w/ Parametric CBR)通常比非参数记忆(Memento w/ Non-Parametric CBR)表现更好,表明学习的Q函数在案例选择中的价值。

结论与意义
Memento代表了一种无需微调底层LLMs就能实现LLM代理持续学习的新范式。通过基于记忆的在线强化学习,Memento实现了低成本持续适应,在多个基准测试上取得了最先进的性能。
这项研究的意义在于:
- 计算效率:避免了微调大型语言模型的高计算成本,使LLM代理能够在资源受限的环境中部署和运行。
- 持续学习:使代理能够从经验中学习并适应新情况,而无需重新训练整个模型。
- 可扩展性:案例库可以随着时间增长,使代理能够积累越来越多的专业知识。
- 灵活性:代理可以适应各种任务和环境,从深度研究到代码生成。