Agent

2025-07-05 · Last updated: 2025-10-24 2276 字 · 10 分钟

引言

现在很多关于agent的讨论都和workflow编排、prompt engineering之类的应用层概念挂钩，这让我一开始对agent的印象停留在融资新闻和炒概念上，觉得它离“科研”有点远。没想到我参与的第一个投稿项目居然和agent的思路有点相似。保研面试和审稿反馈中也好几次被人问到：“你们这个agent框架，和普通的workflow或更简单的流程系统到底有什么区别？”

所以有必要认真分析一下agent的概念内核、研究进展和未来的演化方向。毕竟，虽然现在agent的交互接口跟具身系统不完全一样（internet vs real world），但最终真正落地的智能机器人产品，很可能在理念上会和agent范式高度契合。

观点

小时候读过的成功学有一个故事，说亨利·福特曾对通用电气支付1万美元用于排查发电机故障感到震惊，于是要求一份明细账单。账单上写着：“在发电机上做粉笔标记：1美元；知道在哪里标记：9,999美元。”

Agent助手跟这个说法有些类似。搭建起一个workflow，1美元；知道需要搭建什么样的workflow，9999美元。

从“问一句答一句”的LLM顾问，到用户拖拽节点设计流程的“workflow”时代，再到描述需求后自动分析workflow要有哪些步骤并进行搭建和实施的Agent时代，有时单个Agent可能也是workflow的一环，但即使这样，workflow也只是workflow，是人搭起来的，Agent节点只负责自主分析那一个环节的workflow。

从产品的角度来说，Agent应该被翻译成代理，主要依赖于自然语言交互，搭建过程主要包括提示词（这部分就很包罗万象了，角色扮演、输入输出格式规定、插件API使用场景）、API插件使用权限、记忆数据库，以及最重要的building block：LLM API。

在我的理解中，从科研的角度来说，Agent应该翻译成智能体更合适一些。我们希望它能够自行完成给定的task。

这个task应当具有user friendly的形式，例如“收拾桌子”，而非“先把这个白色的纸团扔进蓝色的垃圾桶，然后再把这个黄色的脏盘子平稳拿到厨房洗碗机中，把这个烂苹果扔进门口的厨余垃圾袋里，最后拿抹布把桌子擦一遍。” 后者这样的详细task流程应当由Agent根据视觉信息、常识先验和对房间各个物体位置和功能的semantics map memory自行得到。

Agent可以分为virtual智能体和physical智能体。以physical智能体为例(作为一只EAI Phd也更关心这个)，我们有以下几方面可以作为科研方向进行分析：如何得到详细的正确的task流程、进行从流程到底层action的映射（包括navigation和maniplation的action），有权限使用的physical工具和使用工具的policy，对整个scene/object的accessibility、action对应后果的记忆。

Agent的科研问题归根结底是multi-modal understanding & interaction的问题。multi-modal最基础的部分逃不开视觉、听觉、语言，但经过加工后用作推理的intermediate representation有很多种，可以包括API tool using, user action, human behavior, environment scene/object modelling, 甚至人际关系相关的atmosphere。

不仅是训练Multi-modal agent的一条数据可能需要非常详细的标注，而且inference时可能也需要收集很多模态的数据。这样就引出了另外一个问题：隐私伦理问题。

我之前在BIGAI参与做的Agent框架是针对3D indoor scene synthesis任务的，利用的是VLM从预训练的大量2D image里得到的commonsense prior。

提示词部分哐哐规定了一堆输出格式，因为要统一做retrieval，所以格式有硬性要求，比如得搞清楚物体标定是用重心还是bbox左下角点。

给Agent用的插件就是人为进行的流程拆解，把之前indoor scene合成相关工作的“卖点”罗列了出来，例如用ACDC从2D新增3D物体（不过这个生成不走到最后一步，只进行到得到3D object的layout json）、物体缩放、朝向调整等等，上一轮的得分可以算是记忆。

每轮调用什么插件，调用到什么程度结束（有maximum iteration指标），相当于agent自己做主的workflow。

不过，不得不承认相当可观的代码量都是在写prompt。另外有缺陷的一点(4o评4o)是community的通病了，本质上是3D场景layout生成质量缺乏好的指标造成的。

总的来说我个人更喜欢科研Agent的理念。至于产品的Agent，更像是一种LLM的下游应用，创建门槛很低，效果也显得有些AI味和刻意，但确实能够提高工作效率，特别是编辑行业这个NLP天生对口的行业（比如AI中文三大会用人那么少的编辑部每天kuakua发那么多有Agent的一份功劳🤣）。

ref:

Agent AI Review by Feifei

首先祭出学术女神的Review镇楼！

论文链接: https://arxiv.org/pdf/2401.03568

核心idea:
- Multimodal “Agent AI”: a class of interactive system that can perceive visual stimuli, language inputs, and other environmentally- grounded, and can produce meaningful embodied actions.
- Foundation models as building blocks
- Train General-purpose end-to-end systems
- Develop Intuitive human interface
reading note：insight很足的文章，我还是比较认同把agent概念泛化到AI各个领域的这种说法的。但是这篇文章有点没有来由地强调虚拟现实了(…?)可能因为我比较在乎服务机器人的场景，对world model还有生成式模型NPC的游戏价值并不太感冒。另外就是review是24年1月挂出来的，时效性有点跟不上了，后来那些能够操作电脑屏幕网页、有各种通信协议的agent没有被收录进去，罗列的一大堆不同application的agent配的实验的设计风格都有一种古早的美感（世上方百日，AI已千年啊🤣）。
推荐指数：🌟🌟🌟

AI Agents vs. Agentic AI

论文链接：https://arxiv.org/abs/2505.10468

reading note：哎呀你要玩概念我可不困了。题目说“AI智能体 vs. 主体性AI：一个概念分类、应用场景与挑战的探讨”，其实文章中说的AI智能体就是我上面观点里写的产品性质的Agent，主体性AI差不多就是有科研价值的Agent概念。不过文中的分析通篇都在说概念，也没个实验，并且完全没有涉及agent和workflow的概念差异，我个人不太认同这种描述式（而非指出几条根本差异）的分类，玩文字游戏容易模糊不清。而且Agentic AI的重点抓到多智能体上了…btw，图画得好业余，难看，不推荐。
推荐指数：🌟

SLM for Agentic AI

论文链接：https://arxiv.org/abs/2506.02153

核心idea:
- Small Language Models are the Future of Agentic AI，很让人眼前一亮的观点
- LLM for specialized tasks with little variation - waste
- small language models (SLMs) - powerful, economical for the future of agentic AI.
- SLM refers to a LM that can fit onto a common consumer electronic device and perform inference with latency sufficiently low (below 10bn parameters)
reading note:
- 与其说是paper感觉更像一篇宣誓哈哈：“我们以价值声明的形式表达了我们的立场，我们希望激发关于如何有效使用AI资源的讨论…”
- 说明观点和概念之外举了一些小model的例子，小model的inference效率，微调灵活、参数激活不稀疏等
- 作者认为大模型能力对于Agentic application来说是过剩的，这样一个ability subsets用SLM就好
- 总之就是把用SLM的大趋势抽象为成体系的观点，然后加了一些实例的参数&性能数据论证吧。缺点就是没图没实验。
推荐指数：🌟🌟

AI Agent Protocols

论文链接：https://arxiv.org/abs/2504.16736

核心idea:
- 关键问题：there is no standard way for these agents to communicate with external tools or data sources
- Protocal分类：a systematic two-dimensional classification. context-oriented versus inter-agent protocols, general-purpose versus domain-specific protocols
- Protocols对比：security, scalability, and latency
- Future: adaptability, privacy preservation, and group-based interaction, as well as trends toward layered architectures and collective intelligence infrastructures
reading note:
- writing非常流畅耶，Timeline的图也画得很清晰
- 确实protocol的效率可能才是多智能体的关键
- 具体的protocol，著名的有A2A，MCP，ANP，ACP等等，但是真正做得比较完备的（根据review的表格，截至25年6月）应该只有MCP，其他的都是landing或者drafting
- 各种A2A，H2A，A2system，Robot2A的protocol酷似计网，其实protocol有点像是人设计的完成任务的通用workflow，包括通信函数、身份认证之类的
推荐指数：🌟🌟🌟🌟