Agent
引言
现在很多关于agent的讨论都和workflow编排、prompt engineering之类的应用层概念挂钩,这让我一开始对agent的印象停留在融资新闻和炒概念上,觉得它离“科研”有点远。没想到我参与的第一个投稿项目居然和agent的思路有点相似。保研面试和审稿反馈中也好几次被人问到:“你们这个agent框架,和普通的workflow或更简单的流程系统到底有什么区别?”
所以有必要认真分析一下agent的概念内核、研究进展和未来的演化方向。毕竟,虽然现在agent的交互接口跟具身系统不完全一样(internet vs real world),但最终真正落地的智能机器人产品,很可能在理念上会和agent范式高度契合。
观点
小时候读过的成功学有一个故事,说亨利·福特曾对通用电气支付1万美元用于排查发电机故障感到震惊,于是要求一份明细账单。账单上写着:“在发电机上做粉笔标记:1美元;知道在哪里标记:9,999美元。”
Agent助手跟这个说法有些类似。搭建起一个workflow,1美元;知道需要搭建什么样的workflow,9999美元。
从“问一句答一句”的LLM顾问,到用户拖拽节点设计流程的“workflow”时代,再到描述需求后自动分析workflow要有哪些步骤并进行搭建和实施的Agent时代,有时单个Agent可能也是workflow的一环,但即使这样,workflow也只是workflow,是人搭起来的,Agent节点只负责自主分析那一个环节的workflow。
从产品的角度来说,Agent应该被翻译成代理,主要依赖于自然语言交互,搭建过程主要包括提示词(这部分就很包罗万象了,角色扮演、输入输出格式规定、插件API使用场景)、API插件使用权限、记忆数据库,以及最重要的building block:LLM API。
在我的理解中,从科研的角度来说,Agent应该翻译成智能体更合适一些。我们希望它能够自行完成给定的task。
这个task应当具有user friendly的形式,例如“收拾桌子”,而非“先把这个白色的纸团扔进蓝色的垃圾桶,然后再把这个黄色的脏盘子平稳拿到厨房洗碗机中,把这个烂苹果扔进门口的厨余垃圾袋里,最后拿抹布把桌子擦一遍。” 后者这样的详细task流程应当由Agent根据视觉信息、常识先验和对房间各个物体位置和功能的semantics map memory自行得到。
Agent可以分为virtual智能体和physical智能体。以physical智能体为例(作为一只EAI Phd也更关心这个),我们有以下几方面可以作为科研方向进行分析:如何得到详细的正确的task流程、进行从流程到底层action的映射(包括navigation和maniplation的action),有权限使用的physical工具和使用工具的policy,对整个scene/object的accessibility、action对应后果的记忆。
Agent的科研问题归根结底是multi-modal understanding & interaction的问题。multi-modal最基础的部分逃不开视觉、听觉、语言,但经过加工后用作推理的intermediate representation有很多种,可以包括API tool using, user action, human behavior, environment scene/object modelling, 甚至人际关系相关的atmosphere。
不仅是训练Multi-modal agent的一条数据可能需要非常详细的标注,而且inference时可能也需要收集很多模态的数据。这样就引出了另外一个问题:隐私伦理问题。
我之前在BIGAI参与做的Agent框架是针对3D indoor scene synthesis任务的,利用的是VLM从预训练的大量2D image里得到的commonsense prior。
提示词部分哐哐规定了一堆输出格式,因为要统一做retrieval,所以格式有硬性要求,比如得搞清楚物体标定是用重心还是bbox左下角点。
给Agent用的插件就是人为进行的流程拆解,把之前indoor scene合成相关工作的“卖点”罗列了出来,例如用ACDC从2D新增3D物体(不过这个生成不走到最后一步,只进行到得到3D object的layout json)、物体缩放、朝向调整等等,上一轮的得分可以算是记忆。
每轮调用什么插件,调用到什么程度结束(有maximum iteration指标),相当于agent自己做主的workflow。
不过,不得不承认相当可观的代码量都是在写prompt。另外有缺陷的一点(4o评4o)是community的通病了,本质上是3D场景layout生成质量缺乏好的指标造成的。
总的来说我个人更喜欢科研Agent的理念。至于产品的Agent,更像是一种LLM的下游应用,创建门槛很低,效果也显得有些AI味和刻意,但确实能够提高工作效率,特别是编辑行业这个NLP天生对口的行业(比如AI中文三大会用人那么少的编辑部每天kuakua发那么多有Agent的一份功劳🤣)。
ref:
Agent AI Review by Feifei
首先祭出学术女神的Review镇楼!

核心idea:
- Multimodal “Agent AI”: a class of interactive system that can perceive visual stimuli, language inputs, and other environmentally- grounded, and can produce meaningful embodied actions.
- Foundation models as building blocks
- Train General-purpose end-to-end systems
- Develop Intuitive human interface
reading note:insight很足的文章,我还是比较认同把agent概念泛化到AI各个领域的这种说法的。但是这篇文章有点没有来由地强调虚拟现实了(…?)可能因为我比较在乎服务机器人的场景,对world model还有生成式模型NPC的游戏价值并不太感冒。另外就是review是24年1月挂出来的,时效性有点跟不上了,后来那些能够操作电脑屏幕网页、有各种通信协议的agent没有被收录进去,罗列的一大堆不同application的agent配的实验的设计风格都有一种古早的美感(世上方百日,AI已千年啊🤣)。
推荐指数:🌟🌟🌟
AI Agents vs. Agentic AI
- 论文链接:https://arxiv.org/abs/2505.10468

reading note:哎呀你要玩概念我可不困了。题目说“AI智能体 vs. 主体性AI:一个概念分类、应用场景与挑战的探讨”,其实文章中说的AI智能体就是我上面观点里写的产品性质的Agent,主体性AI差不多就是有科研价值的Agent概念。不过文中的分析通篇都在说概念,也没个实验,并且完全没有涉及agent和workflow的概念差异,我个人不太认同这种描述式(而非指出几条根本差异)的分类,玩文字游戏容易模糊不清。而且Agentic AI的重点抓到多智能体上了…btw,图画得好业余,难看,不推荐。
推荐指数:🌟
SLM for Agentic AI
- 论文链接:https://arxiv.org/abs/2506.02153

核心idea:
- Small Language Models are the Future of Agentic AI,很让人眼前一亮的观点
- LLM for specialized tasks with little variation - waste
- small language models (SLMs) - powerful, economical for the future of agentic AI.
- SLM refers to a LM that can fit onto a common consumer electronic device and perform inference with latency sufficiently low (below 10bn parameters)
reading note:
- 与其说是paper感觉更像一篇宣誓哈哈:“我们以价值声明的形式表达了我们的立场,我们希望激发关于如何有效使用AI资源的讨论…”
- 说明观点和概念之外举了一些小model的例子,小model的inference效率,微调灵活、参数激活不稀疏等
- 作者认为大模型能力对于Agentic application来说是过剩的,这样一个ability subsets用SLM就好
- 总之就是把用SLM的大趋势抽象为成体系的观点,然后加了一些实例的参数&性能数据论证吧。缺点就是没图没实验。
推荐指数:🌟🌟
AI Agent Protocols
- 论文链接:https://arxiv.org/abs/2504.16736

核心idea:
- 关键问题:there is no standard way for these agents to communicate with external tools or data sources
- Protocal分类:a systematic two-dimensional classification. context-oriented versus inter-agent protocols, general-purpose versus domain-specific protocols
- Protocols对比:security, scalability, and latency
- Future: adaptability, privacy preservation, and group-based interaction, as well as trends toward layered architectures and collective intelligence infrastructures
reading note:
- writing非常流畅耶,Timeline的图也画得很清晰
- 确实protocol的效率可能才是多智能体的关键
- 具体的protocol,著名的有A2A,MCP,ANP,ACP等等,但是真正做得比较完备的(根据review的表格,截至25年6月)应该只有MCP,其他的都是landing或者drafting
- 各种A2A,H2A,A2system,Robot2A的protocol酷似计网,其实protocol有点像是人设计的完成任务的通用workflow,包括通信函数、身份认证之类的
推荐指数:🌟🌟🌟🌟