论文分享:Large Language Model based Multi-Agents: A Survey of Progress and Challenges

大模型驱动的多智能体综述,2024年1月发布于ArXiv,专知推文报道。

一、研究背景

    1.基于LLM的单智能体

        LLM具有令人深刻的规划和推理能力,基于LLM的智能体能够理解、生成类似人类的指令,促进在广泛环境下的复杂交互和决策

    2.基于LLM的多智能体系统

        基于LLM实现多个具备特定领域知识的能力不同的智能体,智能体间交流互动,模拟现实世界,完成复杂任务

        应用:软件开发、多机器人系统、社会模拟、策略模拟、游戏模拟

attachments-2024-06-zB0ydINp667174ec585c1.png


二、相关工作

    该综述将大模型驱动的多智能体相关工作按以下分类总结,其中,叶节点上的数字表示该类别中论文的数量。同时,提供开源论文资源库

并持续维护 GitHub repository:https://github.com/taichengguo/LLM_MultiAgents_Survey_Papers

attachments-2024-06-y8E8qBTz667174f39b29b.png

三、LLM-MA系统:接口、配置、通信、能力

attachments-2024-06-DaYyBalN667174f909106.png

1、智能体-环境接口

基于LLM的智能体在环境中感知并行动,而环境反过来影响它们的行为和决策

沙盒环境:例如软件开发(代码解释器作为模拟环境)、游戏(游戏规则作为模拟环境)

物理环境:例如快递分拣、整理房间

无环境:例如多智能体辩论

2、智能体配置

在不同的系统中,智能体承担不同的角色,每个角色都有全面描述,包括特征、能力、行为和限制

例如:游戏(不同角色、技能的玩家)、软件开发(产品经理、工程师)、辩论(支持者、反对者、评委)

预定义:系统设计者明确定义

模型生成:通过模型(例如大语言模型)创建

数据驱动:基于预先存在的数据集构建

3、智能体通信

通信范式:合作、辩论、竞争
通信结构:分层、去中心化、中心化、共享消息池
通信内容:一般是文本,内容取决于应用场景
attachments-2024-06-fQxzgxlo667175007d2e1.png

4、智能体能力获取

智能体调整依据:反馈
反馈是指智能体关于其行动结果收到的关键信息,帮助智能体了解其行动的潜在影响,并适应复杂和动态的问题,反馈类型:来自环境的反馈、来自智能体互动的反馈、来自人类的反馈、无反馈

智能体调整策略:
记忆:智能体将来自先前互动和反馈的信息存储在它们的记忆中。在执行行动时,它们可以检索相关的、有价值的记忆,特别是那些包含过去类似目标的成功行动的记忆
自我进化:智能体通过修改自己(例如改变初始目标和规划策略)并根据反馈或通信日志对自己进行训练来动态自我进化
动态生成:系统可以在其运行期间即时生成新的智能体,这种能力使系统能够有效地扩展和适应,因为它可以引入专门设计来解决当前需求和挑战的智能体

四、应用场景

1、问题解决

软件开发、具身智能体、科学实验、科学辩论

以软件开发为例分析LLM-MA系统(接口、配置、通信、能力):

智能体-环境接口、能力:智能体通常与代码解释器、其他智能体或人类互动,以迭代地改进生成的代码

智能体配置:产品经理、程序员、测试员等

智能体通信:分层(便于遵循软件开发的瀑布流或标准化操作程序(SOPs)的工作流程)

attachments-2024-06-MObyaDMN667175077dd06.png

2、世界模拟

社会模拟、游戏、心理学模拟、经济和金融交易模拟、推荐系统、政策制定模拟、疾病传播模拟

attachments-2024-06-g3wySYmJ6671750e9a740.png

五、数据集和基准

在问题解决场景中,大多数数据集和基准用于评估多个Agent合作或辩论的规划和推理能力

在世界模拟场景中,数据集和基准用于评估模拟世界与现实世界的一致性或分析不同Agent的行为

在某些研究应用中,如科学团队操作实验和经济建模,仍然需要全面的基准

attachments-2024-06-VQq9cELv6671751270611.png


六、挑战和机遇

进入多模态环境:大多数以前的LLM-MA工作都集中在基于文本的环境中。然而,在多模态环境中,智能体将与多种感官输入进行交互,并生成多种输出,如图像、音频、视频和物理动作,这是一个明显的空白

解决幻觉问题:幻觉问题指模型生成的文本在事实上是不正确的,一个Agent的幻觉可能会产生级联效应。因此,在LLM-MA中检测和减轻幻觉提出了一组独特的挑战。它不仅涉及在个别Agent层面上纠正不准确性,还涉及管理Agent之间的信息流,以防止这些不准确性在整个系统中传播

获得集体智能:当前研究中流行的方法是使用记忆和自我进化技术根据反馈调整Agent。虽然对于个别Agent来说这些方法是有效的,但它们并没有充分利用Agent网络的潜在集体智能。它们孤立地调整Agent,忽视了从协调的多智能体互动中可能产生的协同效应

扩展LLM-MA系统:每个基于LLM的Agent都需要大量的计算能力和内存,在LLM-MA系统中增加这些Agent的数量显著增加了资源需求。因此,有效的Agent协调、通信和理解多智能体的规模法则的亟待研究

评估和基准:现有研究的大部分集中在评估个别Agent在狭义定义的场景中的理解和推理。这种关注点往往忽视了对多智能体系统至关重要的更广泛和更复杂的新兴行为。其次,在多个研究领域缺乏全面的基准

应用拓展:LLM-MA系统的潜力远远超出了它们目前的应用程序,为金融、教育、医疗保健、环境科学、城市规划等领域的先进计算问题解决提供了巨大的希望,LLM-MA系统具有解决复杂问题和模拟现实世界各个方面的能力



  • 发表于 2024-06-18 19:51
  • 阅读 ( 978 )
  • 分类:论文分享

你可能感兴趣的文章

相关问题

0 条评论

请先 登录 后评论
小方
小方

2 篇文章

作家榜 »

  1. Panda-admin 37 文章
  2. 解弘艺 17 文章
  3. 高曾谊 16 文章
  4. 旺仔牛奶opo 15 文章
  5. 胡中天 14 文章
  6. LH 14 文章
  7. 罗柏荣 13 文章
  8. 林晨 12 文章