...of Large Language Model Based Agents:A Survey》相关解读_百度知 ...
发布网友
发布时间:2024-10-23 22:52
我来回答
共1个回答
热心网友
时间:2024-11-16 04:10
最近,大量基于大型语言模型(LLM)的agent框架涌现,相关综述也越来越多。本文重点解读了米哈游和复旦NLP团队发表的综述,重点关注了其中的agent框架部分。
本文并非简单翻译原文,读者应以论文内容为准。论文链接如下:
Agent的整体架构
综述给出一个清晰的LLM-based agent框架图,图注详细,读者可通过仔细阅读图解理解框架。框架大致如下:
agent通过环境获取信息,类似人类用眼睛、耳朵等感知世界,大脑处理信息并驱动四肢行动,四肢改变环境和自身状态。数据通路是关键,需要设计高效路径将各部分串联,实现“输入->处理->输出”,并不断接受环境反馈,自主实现目标。
人类常通过反馈调整行动,agent若能评估自身任务完成情况,并主动制定方案或寻求帮助,则是一种重要智能表现。LLM内部已体现此类智能,但非agent结构所致。
每个模块均可进一步细分,并具有独立运动机制,同时存在跨模块机制。
Brain模块的构件框架
Brain是核心模块,其运动机制为:接收感知模块输入->检索知识和记忆->推理和计划->输出行动序列->更新知识和记忆。Brain模块包含5个要素:自然语言交互、知识、记忆、推理和规划、可迁移性和通用性。
知识和记忆无明确界限,后天学习知识即记忆。本文所指知识为agent初始化前固有的,且符合人类要求。
Perception模块的构件框架
Perception模块包含4个关键构件:文本输入、视觉输入、听觉输入和其他输入。其核心目标是扩展agent感知空间,涵盖多模态领域。例如,GPT-4V能理解视觉提示和排列序列帧,agent需充分感知环境。
Action模块的构件框架
Action模块包含3个关键构件:文本输出、工具、具身行动。模块接收Brain模块发送的行动序列,执行与环境互动的行动,并改变自身状态。
Agent与环境
框架涉及agent、multiple agents、agent human和agent society的交互形式。建议用游戏场景验证,例如在开放世界RPG游戏中进行实验。