深度》AI Agent 的七大研究与应用”/> <body class="post-template-default single single-post postid-382194 single-format-standard wp-embed-responsive jeg_toggle_light jeg_single_tpl_1 jeg_single_fullwidth jnews jsc_normal elementor-default elementor-kit-49429

近年来,基於大型语言模型(LLM)的自主代理在架构、记忆、感知、推理与行动等方面不断发展,在多个领域展现出重新定义可能性的潜力。而这将如何应用在市场关注的 AI Agent?本文源自 Rituals 所着文章,由 白话区块链 整理、编译。
(前情提要: 苹果传2025发表升级版「LLM Siri」:比ChatGPT更强大的AI生活助理)
(背景补充: 对话 ai16z 创办人:为什麽 AI meme 将成为一个巨大赛道?)

本文目录

近年来,代理(Agent)的概念在哲学、游戏和人工智慧等多个领域的重要性日益凸显。从传统意义上看,代理指的是一个实体能够自主行动、做出选择并具有意图性,这些特质通常与人类联络在一起。

而在人工智慧领域,代理的内涵变得更加复杂。随着自主代理的出现,这些代理能够在环境中进行观察、学习并独立行动,使得过去抽象的代理概念被赋予了计算系统的具体形式。

这些代理几乎无需人为干预,展现出一种虽非意识却具备计算性意图的能力,能够做出决策、从经验中学习,并以越来越复杂的方式与其他代理或人类互动。

本文将探讨自主代理这一新兴领域,特别是基於大型语言模型(LLM)的代理及其在游戏、治理、科学、机器人等不同领域的影响。在探讨代理基本原则的基础上,本文将分析人工智慧代理的架构与应用。通过这种分类视角,我们能够深入了解这些代理如何执行任务、处理资讯并在其特定的操作框架中不断发展。

本文的目标包括以下两个方面:

提供对人工智慧代理及其架构基础的系统性概述,重点分析记忆、感知、推理和规划等组成部分。

探讨人工智慧代理研究的最新趋势,突出其在重新定义可能性方面的应用案例。

注:由於文章篇幅问题,本文编译对原文有删减。

代理研究趋势

基於大型语言模型(LLM)的代理发展标志着人工智慧研究的重大进展,涵盖了符号推理、反应式系统、强化学习到自适应学习的多重进步。

符号代理:通过规则和结构化知识模拟人类推理,适用於特定问题(如医疗诊断),但难以应对复杂、不确定环境。

反应式代理:通过 「感知 – 行动」 回圈快速响应环境,适合快速互动场景,但无法完成复杂任务。

强化学习代理:通过试错学习优化行为,广泛应用於游戏和机器人,但训练时间长,样本效率低,稳定性差。

基於 LLM 的代理:LLM 代理结合符号推理、回馈和自适应学习,具有少样本和零样本学习能力,广泛应用於软体开发、科学研究等领域,适合动态环境并能与其他代理协作。

代理架构

现代代理架构包括多个模组,形成综合系统。

1. 档案模组

档案模组决定代理行为,通过分配角色或个性来确保一致性,适用於需要稳定个性的场景。LLM 代理的档案分为三类:人口学角色、虚拟角色和个性化角色。

摘自《从角色到个性化》论文

角色对效能的提升角色设定可显着提升代理的表现和推理能力。例如,LLM 作为专家时回应更深入、符合语境。在多代理系统中,角色匹配促进协作,提升任务完成率和互动品质。

档案建立方法 LLM 代理档案可通过以下方式构建:

手动设计:人工设定角色特徵。

LLM 生成:通过 LLM 自动扩展套件角色设定。

资料集对齐:基於真实资料集构建,提升互动真实性。

2. 记忆模组

记忆是 LLM 代理的核心,支援适应性规划与决策。记忆结构模拟人类过程,主要分为两类:

统一记忆:短期记忆,处理最近的资讯。通过文字撷取、记忆总结和修改注意力机制优化,但受上下文视窗限制。

混合记忆:结合短期与长期记忆,长期记忆储存在外部资料库中,便於高效回忆。

记忆格式常见的记忆储存格式包括:

自然语言:灵活且语义丰富。

嵌入向量:便於快速检索。

资料库:通过结构化储存,支援查询。

结构化列表:以列表或层级形式组织。

记忆操作代理通过以下操作与记忆互动:

记忆读取:检索相关资讯,支援明智决策。

记忆写入:储存新资讯,避免重复与溢位。

记忆反思:总结经验,增强抽象推理能力。

基於《Generative Agents》论文的内容

研究意义与挑战

尽管记忆系统提升了智慧体能力,但也带来研究挑战:

可扩展套件性与效率:记忆系统需支援大量资讯并确保快速检索,如何优化长期记忆检索仍是研究重点。

上下文限制的处理:当前 LLM 受限於上下文视窗,难以管理庞大记忆,研究探索动态注意力机制和摘要技术来扩展套件记忆处理能力。

长期记忆中的偏差与漂移:记忆可能存在偏差,导致资讯优先处理并产生记忆漂移,需定期更新并修正偏差以保持智慧体平衡。

灾难性遗忘:新资料覆盖旧资料,导致关键资讯丢失,需通过体验回放和记忆巩固技术强化关键记忆。

3. 感知能力

LLM 智慧体通过处理多样化的资料来源提升对环境的理解与决策能力,类似於人类依赖感官输入。多模态感知整合文字、视觉和听觉等输入,增强智慧体执行复杂任务的能力。以下是主要输入型别及其应用:

文字输入文字是 LLM 智慧体的主要沟通方式。尽管智慧体具备高阶语言能力,理解指令背後的隐含意义仍是挑战。

隐含理解:通过强化学习调整偏好,处理模糊指令和推测意图。

零样本与少样本能力:无需额外训练即可响应新任务,适用於多样化互动场景。

视觉输入视觉感知让智慧体理解物体与空间关系。

影象转文字:生成文字描述帮助处理视觉资料,但可能失去细节。

基於 Transformer 的编码:如 Vision Transformers 将影象转化为文字相容的代币。

桥接工具:如 BLIP-2 和 Flamingo 利用中间层优化视觉与文字对接。

听觉输入听觉感知让智慧体识别声音和语音,尤其在互动和高风险场景中重要。

语音识别与合成:如 Whisper(语音转文字)和 FastSpeech(文字转语音)。

频谱图处理:将音讯频谱图处理为影象,提升听觉讯号解析能力。

多模态感知的研究挑战与考量:

资料对齐与整合多模态资料需要高效对齐,以避免感知与响应错误,研究集中於优化多模态 Transformer 与交叉注意力层。

可扩展套件性与效率多模态处理需求大,尤其处理高解析度影象和音讯时,开发低资源消耗且具扩展套件性的模型是关键。

灾难性遗忘多模态智慧体面临灾难性遗忘,需要策略如优先顺序回放和持续学习来有效保留关键资讯。

情境敏感的响应生成根据上下文优先处理感官资料生成响应仍是研究重点,特别是在嘈杂或视觉主导的环境中。

4. 推理与规划

推理与规划模组帮助智慧体通过分解复杂任务高效解决问题。类似人类,它能制定结构化计划,既可以预先构建完整计划,也能根据回馈即时调整策略。规划方法按回馈型别分类:

一些智慧体执行前构建完整计划,按单一路径或多种选项执行,不修改计划。

另一些智慧体在动态环境中,根据回馈即时调整策略。

没有回馈的规划在无回馈情况下,智慧体从一开始就制定完整计划并执行,不调整。包括单路径规划(按步骤执行)和多路径规划(同时探索多个选项,选择最佳路径)。

单路径推理任务分解为顺序步骤,每一步接着下一步:

思维链(CoT):通过少量示例,引导智慧体按步骤解决问题,提升模型输出品质。

零 – shot-CoT:无需预设示例,通过提示 「逐步思考」 进行推理,适用於零 – shot 学习。

再提示:自动发现有效的 CoT 提示,无需人工输入。

来自CoT论文

5. 多路径推理

与单路径推理不同,多路径推理允许智慧体同时探索多个步骤,生成并评估多个潜在解决方案,从中选择最佳路径,适用於复杂问题,尤其在多种可能途径的情况下。

示例:

自一致性链式思维(CoT-SC):从 CoT 提示输出中取样多个推理路径,选择频率最高的步骤,实现 「自整合」。

思维树(ToT):将逻辑步骤储存为树结构,评估每个 「思维」 对解决方案的贡献,使用广度优先或深度优先搜寻导航。

思维图(GoT):扩展套件 ToT 为图结构,思维作为顶点,依赖关系为边,允许更灵活的推理。

通过规划推理(RAP):使用蒙特卡洛树搜寻(MCTS)模拟多个计划,语言模型既构建推理树又提供回馈。

6. 外部规划器

当 LLM 面对特定领域的规划挑战时,外部规划器提供支援,整合 LLM 缺乏的专业知识。

LLM+P:将任务转为规划领域定义语言(PDDL),通过外部规划器求解,帮助 LLM 完成复杂任务。

CO-LLM:模型协作生成文字,通过交替选择模型生成标记,让最优协作模式自然浮现。

有回馈的规划有回馈的规划使代理根据环境变化即时调整任务,适应不可预测或复杂的场景。

环境回馈代理与环境互动时,根据即时回馈调整计划,保持任务进度。

ReAct:结合推理与行动提示,在互动中建立可调整计划。

DEPS:在任务规划中修订计划,处理未完成的子目标。

SayPlan:使用场景图和状态转移细化策略,提高情境感知。

来自《ReAct》论文

7. 人工回馈

通过与人类互动,帮助代理与人类价值观对齐,避免错误。示例:

内心独白:将人类回馈整合进代理规划中,确保行动与人类预期一致。

模型回馈来自预训练模型的回馈帮助代理自我检查并优化推理与行动。示例:

SelfCheck:零 – shot 逐步检查器,用於自我识别推理链中的错误,并评估正确性。

Reflexion:代理通过记录回馈讯号进行反思,促进长期学习与错误修正。

来自《SelfCheck》论文

推理与规划中的挑战与研究方向尽管推理与规划模组提升了智慧体功能,但仍面临挑战:

可扩展套件性和计算需求:复杂方法如 ToT 或 RAP 需要大量计算资源,提升效率仍是研究重点。

回馈整合的复杂性:有效整合多源回馈,避免资讯过载,是提升适应性而不牺牲效能的关键。

决策中的偏差:优先考虑某些回馈源或路径可能导致偏差,结合偏差消除技术是平衡规划的关键。

8. 行动

行动模组是智慧体决策过程的最後阶段,包括:

行动目标:智慧体执行多种目标,如任务完成、沟通或环境探索。

行动生成:通过回忆或计划生成行动,如基於记忆或计划的行动。

行动空间:包括内在知识和外部工具,如 API、资料库或外部模型来执行任务。例如,HuggingGPT 和 ToolFormer 等工具利用外部模型或 API 进行任务执行。

资料库与知识库:ChatDB 使用 SQL 查询来检索领域特定的资讯,而 MRKL 将专家系统和规划工具整合用於复杂的推理。

外部模型:代理可能依赖非 API 模型执行专门任务。例如,ChemCrow 通过多个模型进行药物发现,MemoryBank 通过两个模型增强文字检索。

行动影响:行动根据结果可分为:

环境变化:如 Voyager 和 GITM 中的资源收集或建造结构,改变环境。

自我影响:如 Generative Agents 更新记忆或制定新计划。

任务链式:某些行动触发其他行动,如 Voyager 在资源收集後建造结构。

扩展套件行动空间:设计 AI 代理需要强大架构和任务技能。能力获取有两种方式:微调和不微调。

微调获取能力:

人工标注资料集:如 RET-LLM 和 EduChat,通过人工标注提升 LLM 表现。

LLM 生成资料集:如 ToolBench,通过 LLM 生成指令微调 LLaMA。

真实世界资料集:如 MIND2WEB 和 SQL-PaLM,通过实际应用资料提升代理能力。

无微调能力获取在微调不可行时,代理可通过提示工程和机制工程提升能力。

提示工程通过设计提示引导 LLM 行为,提高效能。

Chain of Thought (CoT):加入中间推理步骤,支援复杂问题解决。

SocialAGI:根据使用者心理状态调整对话。

Retroformer:结合过去失败的反思优化决策。

机制工程通过专门规则和机制增强代理能力。

DEPS:优化计划,通过描述执行过程、回馈和目标选择提升错误修正。

RoCo:根据环境检查调整多机器人协作计划。

辩论机制:通过协作达成共识。

经验积累

GITM:基於文字的记忆机制提高学习和泛化能力。

Voyager:通过自我回馈优化技能执行。

自驱进化

LMA3:支援目标重标和奖励函式,使代理在无特定任务的环境中学习技能。

来自《Voyager》论文

微调能显着提升任务特定的效能,但需要开源模型且资源消耗较大。提示工程和机制工程适用於开源和闭源模型,但受到输入上下文视窗的限制,且需要精心设计。

涉及多个智慧体(agents)的系统架构

多智慧体架构将任务分配给多个智慧体,各自专注不同方面,提升鲁棒性和适应性。智慧体间的协作和回馈增强整体执行效果,并可根据需求动态调整智慧体数量。然而,这种架构面临协调挑战,沟通至关重要,避免资讯丢失或误解。

为促进智慧体间的沟通与协调,研究关注两种组织结构:

水平结构:所有智慧体共享并优化决策,通过集体决策汇总个人决策,适用於谘询或工具使用场景。

垂直结构:一个智慧体提出初步解决方案,其他智慧体提供回馈或由管理者监督,适用於需要精炼解决方案的任务,如数学问题求解或软体开发。

来自《ChatDev》论文

1. 混合组织结构

DyLAN 将垂直和水平结构结合成混合方法,代理在同层内水平协作,并跨时间步交换资讯。DyLAN 引入排名模型和代理重要性评分系统,动态评估并选择最相关的代理继续协作,表现不佳的代理被停用,形成层级结构。高排名代理在任务和团队构成中起关键作用。

合作型多代理框架通过共享资讯和协调行动,聚焦各代理优势,实现互补合作以最大化效率。

来自《Agentverse》论文

合作互动分为两种型别:

无序合作:多个代理自由互动,未按固定顺序或流程,类似头脑风暴。每个代理提供回馈,系统通过协调代理整合输入并组织响应,避免混乱,通常使用多数投票机制达成共识。

有序合作:代理按顺序互动,遵循结构化流程,每个代理关注前一个代理的输出,确保高效沟通。任务快速完成,避免混乱,但需要通过交叉验证或人工干预防止放大错误。

来自 MetaGPT 论文

对抗性多智慧体框架合作性框架提升效率和协作,而对抗性框架通过挑战推动智慧体进化。受博弈论启发,对抗性互动鼓励智慧体通过回馈和反思改进行为。例如,AlphaGo Zero 通过自我对弈改进策略,LLM 系统通过辩论和 「以牙还牙」 交换提高输出品质。尽管这种方法促进智慧体适应性,但也带来计算开销和错误风险。

涌现行为在多智慧体系统中,可能出现三种涌现行为:

志愿行为:智慧体主动贡献资源或帮助他人。

一致性行为:智慧体调整行为以符合团队目标。

破坏性行为:智慧体可能采取极端行为以快速达成目标,可能带来安全隐患。

基准测试与评估基准测试是评估智慧体表现的关键工具,常用平台包括 ALFWorld、IGLU 和 Minecraft 等,用於测试智慧体在规划、协作和任务执行方面的能力。同时,工具使用和社交能力的评估也十分重要,平台如 ToolBench 和 SocKET 分别评估智慧体的适应能力与社交理解。

应用数位游戏成为 AI 研究的重要平台,基於 LLM 的游戏智慧体注重认知能力,推动 AGI 研究。

来自《基於大语言模型的游戏智慧体调查》论文

游戏中的智慧体感知在视讯游戏中,智慧体通过感知模组理解游戏状态,主要方法有三种:

状态变数访问:通过游戏 API 访问符号资料,适用於视觉要求较低的游戏。

外部视觉编码器:使用视觉编码器将影象转为文字,如 CLIP,帮助智慧体理解环境。

多模态语言模型:结合视觉和文字资料,增强智慧体的适应性,如 GPT-4V。

游戏智慧体案例研究

Cradle(冒险游戏):该游戏要求智慧体理解故事情节、解决谜题和导航,面临多模态支援、动态记忆和决策的挑战。Cradle 的目标是实现通用电脑控制(GCC),使智慧体通过萤幕和音讯输入,执行任何电脑任务,具有更大通用性。

PokéLLMon(竞技游戏)竞技游戏因其严格规则和可与人类玩家比较的胜率,成为推理和规划效能的基准。多个智慧体框架已展示出竞技表现。比如,《大型语言模型玩《星际争霸 2》:基准与链式总结方法》中的 LLM 智慧体与内建 AI 进行文字版《星际争霸 2》对战。 PokéLLMon 是首个实现人类水平表现的 LLM 智慧体,在《宝可梦》战术游戏中获得 49% 排位赛胜率和 56% 邀请赛胜率。该框架通过增强知识生成与一致性动作生成,避免幻觉和链式思维中的恐慌回圈。智慧体将战斗伺服器的状态日志转化为文字,确保回合连贯性并支援基於记忆的推理。

智慧体通过四种回馈强化学习,包括 HP 变化、技能效果、行动顺序的速度估算、以及技能状态效果,以优化策略并避免回圈使用无效技能。

PokéLLMon 利用外部资源(如 Bulbapedia)获取知识,如型别克制和技能效果,帮助智慧体更精准地使用特殊技能。此外,通过评估 CoT、Self-Consistency 和 ToT 方法,发现 Self-Consistency 显着提升胜率。

ProAgent(合作游戏)合作游戏需要理解队友意图并预测行动,通过显式或隐式合作完成任务。显式合作效率高但灵活性较低,隐式合作则依靠预测队友策略进行适应性互动。 在《Overcooked》中,ProAgent 展示了隐式合作的能力,其核心流程分五步:

知识收集与状态转换:提取任务相关知识并生成语言描述。

技能规划:推测队友意图并制定行动方案。

信念修正:动态更新对队友行为的理解,减少错误。

技能验证与执行:迭代调整计划以确保行动有效。

记忆储存:记录互动与结果以优化未来决策。

其中,信念修正机制尤为关键,确保智慧体随着互动更新理解,提高情境感知和决策准确性。

ProAgent 超越了五种自我对弈和基於人群的训练方法。

2. 生成型智慧体(模拟)

虚拟角色如何体现人类行为的深度和复杂性?尽管早期 AI 系统如 SHRDLU 和 ELIZA 尝试自然语言互动,基於规则的方法和强化学习也在游戏中取得进展,但它们在一致性和开放互动上存在局限。如今,结合 LLM 与多层架构的智慧体突破了这些限制,具备储存记忆、反思事件并适应变化的能力。研究表明,这些智慧体不仅能模拟真实人类行为,还展现了传播资讯、建立社交关系和协调行为的突现能力,推动虚拟角色更加逼真。

来自《大规模语言模型智慧体的崛起与潜力:一项调查》

架构概述: 该架构结合感知、记忆检索、反思、规划与反应。智慧体通过记忆模组处理自然语言观察,根据时效性、重要性和情境相关性评估并检索资讯,同时生成基於过去记忆的反思,提供关系和计划的深刻洞察。推理和规划模组则类似於计划 – 行动回圈。

模拟结果: 研究模拟了情人节派对和市长选举的资讯传播,两天内市长候选人知晓度从 4% 增至 32%,派对知晓度从 4% 升至 52%,虚假资讯占比仅 1.3%。

智慧体通过自发协调组织派对,形成新社交网路,密度从 0.167 增至 0.74。模拟展示了无需外部干预的资讯共享和社交协调机制,为未来社会科学实验提供参考。

Voyager(制作与探索): 在 Minecraft 中,智慧体可执行制作任务或自主探索。制作任务依赖 LLM 规划和任务分解,而自主探索通过课程学习识别任务,LLM 生成目标。Voyager 是具身终身学习智慧体,结合自动课程、技能库和回馈机制,展现了探索与学习的潜力。

自动课程利用 LLM 生成与智慧体状态和探索进度相关的目标,使任务逐步复杂化。智慧体生成模组化程式码执行任务,并通过链式思维提示回馈结果,必要时修改程式码。成功後,程式码储存於技能库以备後用。

Voyager 框架显着提升了技术树解锁效率,木材、石材和铁的解锁速度分别快 15.3 倍、8.5 倍和 6.4 倍,并成为唯一解锁钻石的框架。其探索距离比基准长 2.3 倍,发现新物品多 3.3 倍,展现了卓越的终身学习能力。

游戏领域的潜在应用1. 代理驱动的游戏玩法

多代理模拟:AI 角色自主行动,推动动态玩法。

策略游戏智慧单位:代理根据玩家目标适应环境并自主决策。

AI 训练场:玩家设计并训练 AI 完成任务。

2. AI 增强的 NPC 与虚拟世界

开放世界 NPC:LLM 驱动 NPC 影响经济与社交动态。

真实对话:提升 NPC 互动体验。

虚拟生态:AI 驱动生态系统演化。

动态事件:即时管理游戏内活动。

3. 动态叙事与玩家支援

自适应叙事:代理生成个性化任务与故事。

玩家助手:提供提示和互动支援。

情感响应 AI:根据玩家情绪互动。

4. 教育与创造

AI 对手:在竞技与模拟中适应玩家策略。

教育游戏:代理提供个性化教学。

辅助创作:生成游戏内容,降低开发门槛。

5. 加密与金融领域

代理通过区块链自主操作钱包、交易与互动 DeFi 协议。

智慧合约钱包:支援多签名与帐户抽象,增强代理自主性。

私钥管理:采用多方计算(MPC)或可信执行环境(TEE)确保安全,如 Coinbase 开发的 AI 代理工具。

这些技术为代理的自主链上互动与加密生态应用带来新机遇。

区块链领域的代理应用1. 验证性代理推理

链下验证是区块链研究的热点,主要应用於高复杂度计算。研究方向包括零知识证明、乐观验证、可信执行环境(TEE)以及加密经济博弈论。

代理输出验证:通过链上验证器确认代理推理结果,使代理能被外部执行并将可靠的推理结果上链,类似去中心化预言机。

案例:Modulus Labs 的 「Leela vs. the World」 使用零知识电路验证棋局动作,结合预测市场与可验证 AI 输出。

2. 密码学代理协作

分散式节点系统可执行多代理系统并达成共识。

Ritual 案例:通过多节点执行 LLM,结合链上验证与投票形成代理行动决策。

Naptha 协议:提供任务市场与工作流验证系统,用於代理任务的协同与验证。

去中心化 AI 预言机:如 Ora 协议,支援分散式代理执行和共识建立。

3. Eliza 框架

由 a16z 开发,专为区块链设计的开源多代理框架,支援个性化智慧代理建立与管理。

特性:模组化架构、长期记忆、平台整合(支援 Discord、X、Telegram 等)。

信任引擎:结合自动化 Token 交易,评估并管理推荐信任分数。

4. 其他代理应用

去中心化能力获取:通过奖励机制激励工具和资料集开发,例如技能库建立与协议导航。

预测市场代理:结合预测市场与代理自主交易,如 Gnosis 与 Autonolas 支援链上预测与回答服务。

代理治理授权:通过代理在 DAO 中自动分析提案并投票。

Token 化代理:代理收入共享,如 MyShell 与 Virtuals Protocol 支援分红机制。

DeFi 意图管理:代理优化多链环境下的使用者体验,自动执行交易。

自主 Token 发行:由代理发行 Token,增强 Token 的市场吸引力。

自治艺术家:如 Botto,结合社群投票与链上 NFT 铸造,支援代理创作与收益分配。

经济化游戏代理:AI Arena 等结合强化学习与模仿学习,设计 24/7 线上游戏竞技。

近期动态与展望

多个专案正在探索区块链与 AI 的结合点,应用领域丰富。後续将专门讨论链上 AI 代理。

1. 预测能力预测是决策关键。传统预测分为统计和判断预测,後者依赖专家,成本高且慢。

研究进展:

通过新闻检索和推理增强,大型语言模型(LLMs)预测准确率从 50% 提升至 71.5%,接近人类预测的 77%。

整合 12 个模型预测效果接近人类团队,展示 「群体智慧」 提升可靠性。

2. 角色扮演(Roleplay)

LLMs 在角色扮演领域表现出色,结合社会智慧和记忆机制,能模拟复杂互动。

应用:可用於角色模拟、游戏互动和个性化对话。

方法:结合检索增强生成(RAG)和对话工程,通过少样本提示优化表现。

创新:

RoleGPT 动态提取角色上下文,提升拟真度。

Character-LLM 藉助传记资料重现历史人物特质,精准还原角色。

这些技术推动了 AI 在社交模拟和个性化互动等领域的应用拓展。

摘自《Character-LLM》论文

RPLA(Role-Playing Language Agent 角色扮演语言智慧体)的应用

以下是部分 RPLA 应用的简要列表:

游戏中的互动 NPC:打造具备情感智慧的动态角色,提升玩家沉浸感。

历史人物模拟:复现历史人物,如苏格拉底或克娄巴特拉,用於教育或探索性对话。

故事创作助手:为作家、RPG 玩家及创作者提供丰富的叙事与对话支援。

虚拟表演:扮演演员或公众人物,用於互动戏剧、虚拟活动等娱乐场景。

AI 共创:与 AI 合作,创作特定风格的艺术、音乐或故事。

语言学习夥伴:模拟母语者提供沉浸式语言练习。

社会模拟:构建未来或假想社会,测试文化、伦理或行为场景。

订制虚拟伴侣:打造具有独特个性、特质与记忆的个性化助手或夥伴。

AI 对齐问题

评估 LLM 是否符合人类价值观是一项复杂任务,因实际应用场景的多样性与开放性而充满挑战。设计全面对齐测试需投入大量精力,但现有的静态测试资料集难以及时反应新兴问题。

目前,AI 对齐多通过外部人工监督完成,例如 OpenAI 的 RLHF(基於人类回馈的强化学习)方法,该过程耗时 6 个月,耗费大量资源以实现 GPT-4 的对齐优化。

也有研究尝试减少人工监督,利用更大的 LLM 进行审查,但新的方向是藉助代理框架分析模型的对齐情况。例如:

1. ALI-Agent 框架

通过动态生成真实场景检测微妙或 「长尾」 风险,克服传统静态测试的局限性。

两阶段流程:

场景生成:基於资料集或网路查询生成潜在风险场景,利用记忆模组呼叫过往评估记录。

场景优化:若未发现对齐问题,通过目标模型回馈迭代优化场景。

模组组成:记忆模组、工具模组(如网路搜寻)及行动模组。实验证明其能有效揭示 LLM 中未被识别的对齐问题。

2. MATRIX 方法

基於 「多角色扮演」 自我对齐方式,启发於社会学理论,通过模拟多方互动来理解价值观。

核心特点:

Monopolylogue 方法:单一模型扮演多个角色并评估社交影响。

社交调节器:记录互动规则与模拟结果。

创新之处:摒弃预设规则,通过模拟互动塑造 LLM 的社会意识,并利用模拟资料微调模型以实现快速自我对齐。实验证明 MATRIX 对齐效果优於现有方法,并在某些基准测试中超越 GPT-4。

摘自《MATRIX论文》

关於代理 AI 对齐的研究还有很多,可能值得单独写一篇文章。

治理与组织组织依赖标准操作程式(SOP)来协调任务和分配责任。例如,软体公司中的产品经理使用 SOP 分析市场和使用者需求,并制定产品需求文件(PRD)来指导开发过程。这种结构适用於多代理框架,如 MetaGPT,其中代理角色明确,具备相关工具和规划能力,且通过回馈优化表现。

机器人技术基於代理的架构提升了机器人在复杂任务规划和自适应互动中的表现。语言条件下的机器人政策帮助机器人理解环境,并根据任务需求生成可执行的行动序列。

架构框架 LLM 与经典规划结合,能有效解析自然语言命令并转化为可执行的任务序列。SayCan 框架结合强化学习和能力规划,使机器人能够在现实中执行任务,确保指令的可行性和适应性。Inner Monologue 进一步提升了机器人的适应性,通过回馈调整行动实现自我修正。

示例框架 SayCan 框架使机器人在面对自然语言指令时,能评估和执行任务(如从桌子上取饮料)并确保与实际能力匹配。

SayPlan:SayPlan 通过使用 3DSGs 高效规划多房间任务,保持空间上下文感知并验证计划,确保广泛空间中的任务执行。

Inner Monologue:该框架通过即时回馈优化执行,适应环境变化,适用於厨房任务和桌面重排等应用。

RoCo:一种零 – shot 多机器人协作方法,结合自然语言推理和运动规划,生成子任务计划并通过环境验证优化,确保可行性。

科学《Empowering Biomedical Discovery with AI Agents》提出了多代理框架,结合工具和专家,支援科学发现。文章介绍了五种协作方案:

头脑风暴代理

专家谘询代理

研究辩论代理

圆桌讨论代理

自主实验室代理

文章还讨论了 AI 代理的自主性级别:

Level 0:ML 模型帮助科学家形成假设,如 AlphaFold-Multimer 预测蛋白质相互作用。

Level 1:代理作为助理支援任务和目标设定。ChemCrow 用机器学习工具扩展套件行动空间,支援有机化学研究,成功发现新色素。

Level 2:在 Level 2 阶段,AI 代理与科学家合作完善假设,执行假设测试并使用工具进行科学发现。Coscientist 是一个基於多个 LLM 的智慧代理,能自主规划、设计并执行复杂实验,利用工具如网际网路、API 和与其他 LLM 的协作,甚至直接控制硬体。其能力体现在化学合成规划、硬体文件查询、高阶命令执行、液体处理、复杂科学问题解决等六个方面。

Level 3:在 Level 3 阶段,AI 代理能超越现有研究范围,推测出新的假设。尽管这一阶段尚未实现,但通过优化自身工作,可能会加速 AI 发展的程式。

小结:AI 代理的未来

AI 代理正在改变智慧的概念与应用,重塑决策和自主性。它们在科学发现、治理框架等领域成为活跃参与者,不仅是工具,也是协作夥伴。随着技术进步,我们需要重新思考如何平衡这些代理的力量与潜在的伦理和社会问题,确保其影响是可控的,推动技术发展并减少风险。

📍相关报导📍

对话 ai16z 创办人:为什麽 AI meme 将成为一个巨大赛道?

解读Crypto+AI Agents:下个十亿用户的真正突破口?

ai16z价格腰斩!发新迷因币ELIZA遭质疑老鼠仓、引爆社群大小写之争,发生什麽事?

Leave a Reply

Your email address will not be published. Required fields are marked *