文章

AI Agent 元年,于 2025 开启

AI Agent 元年,于 2025 开启

序言

近年来,AI领域迎来了颠覆性变革,以大语言模型(LLM)为核心的生成式技术正以前所未有的速度重塑人机交互的边界。以ChatGPT的对话式突破到GeminiClaude的多模态跃迁,LLMs不仅展现出对人类语言的深刻理解,更逐步演化为知识推理与创造性表达工具。然而,这仅是智能革命的起点——当LLMs与智能体(Agent)技术深度融合,AI开始突破“被动应答”的局限,迈向自主感知、决策与行动的“主动智能”新时代。

Agent智能体作为具备目标驱动能力的AI实体,正在通过LLMs获得自然语言交互、逻辑推演与环境适应的关键能力。从AutoGPT的自动化任务分解到GPT-4o的实时多模态交互,从科研Agent加速药物发现到企业级Agent重构工作流程,这一融合正催生“数字员工”、“AI协作者”等新范式。技术进化的背后是LLMs赋予智能体类人的认知泛化力,而Agent智能体则为LLMs搭建起连接虚拟与物理世界的行动桥梁。两者的协同,既在攻克复杂场景的可靠性、可解释性等挑战,也在伦理对齐与安全可控层面引发深层思考。

LLM发展历程

早期萌芽阶段(1950s-1956s)

  1. 艾伦·图灵提出图灵测试(1950),定义机器智能的哲学目标,成为AI领域的理论基石;
  2. 达特茅斯会议首次提出人工智能概念(1956),规划自然语言处理、机器学习等研究方向,但受限与算力与数据规模,早期AI仅能处理符号逻辑推理等简单任务。

早期探索阶段(1950s–1990s)

  1. 规则驱动方法‌
    • 基于Noam Chomsky生成语法理论(1957),构建句法解析系统(如SHRDLU1970)‌;
    • 依赖人工编写正则表达式,难以处理复杂语言现象‌(如歧义句Time flies like an arrow)。
  2. 统计方法革命‌
    • 机器学习兴起(1980),以统计学习和数据驱动为核心,专家系统(如DENDRALXCON)在特定领域展现潜力,但泛化能力有限;
    • IBM引入Brown Corpus1990)与隐马尔可夫模型(HMM)进行词性标注‌;
    • n-gram模型与统计机器翻译(如IBM Model 1-5)成为主流‌;
    • 谷歌早期搜索引擎采用PageRankTF-IDF统计方法改进检索效果‌。

神经网络与词嵌入阶段(2000s–2010s中期)

  1. 神经语言模型奠基‌
    • Bengio团队于2003年提出神经网络语言模型(NNLM),首次引入词嵌入技术‌,解决“维度灾难”问题‌;
    • Word2Vec2013)通过分布式表征提升语义理解能力‌,通过Skip-GramCBOW模型实现高效语义表征(如“国王 - 男人 + 女人 = 女王”)‌。
  2. 序列模型发展‌
    • 循环神经网络(RNN)与长短期记忆网络(LSTM)增强序列建模能力‌。LSTM1997)和GRU2014)通过门控机制缓解梯度消失,但处理超长文本时效率低下‌。

Transformer深度学习架构突破(2017s–2018s)‌

  1. 自注意力机制‌
    • 谷歌提出Transformer架构(2017-06),通过自注意力机制解决长距离依赖问题,提升翻译流畅度(如BLEU分数提升30%+)‌;
    • 基于自注意力机制实现并行化序列建模,彻底革新NLP范式,为LLM奠定技术基础。
  2. 预训练范式确立‌
    • OpenAI发布GPT-12018-06),参数达1.17亿,采用单向自回归预训练,首次将Transformer与大规模无监督预训练结合,验证语言模型的通用生成能力;GPT的核心原理,是把Transformer解码器拿出来,在没有标号的大量文本数据上训练一个大语言模型,来获得一个预训练模型,之后在子任务上做有监督的微调得到每一个任务所要的分类器(多任务学习,Multitask learning),类似于计算机视觉上的做法——半监督学习(GPT里边叫自监督学习,semi-supervised learning),但微调会有过拟合问题,微调后的泛化效果在实际应用中不一定就很好;
    • 谷歌推出BERT2018-10),引入双向遮蔽语言模型(MLM)任务,开启预训练语言模型(PLM)时代‌;思想和GPT不一样,它把Transformer编码器拿出来,收集一个更大的数据集用作预训练,效果比GPT-1好很多,BERT有俩模型,分别是BERT-BaseBERT-Large;
    • OpenAI随后推出GPT-2(2019-02),参数达15亿,相较于GPT-1GPT-2沿着原来的路线,收集了一个更大的数据集,训练了一个更大的模型,深入挖掘语言模型的潜力,虽然综合效果并没有BERT-Large好,但在新意度方面提出了zero-shotprompt则是实现zero-shot能力迁移的关键技术手段),相较于Multitask learning做到下游任务时,不需要下游任务的任何标注数据,也不需要对下游任务训练模型,也就是训练一个模型,在任何地方都能用,让模型理解prompt后输出GPT-2模型比BERT-Large还要大。

大模型爆发期(2020s–2023s)‌

  1. 参数规模跃升‌
    • OpenAI发布GPT-32020-05)参数达1750亿,推动LLM从实验室迈向实际应用;GPT-3尝试解决改善GPT-2的效果,回到了GPT一开始的few-shot设定,就像现实生活中人类学习也要从少量样例学习后做拓展一样,只不过人类在样本的有效性上做的比较好,只需要一点样本就好了,但语言模型需要大量样本,few-shot在每个子任务上只补给成本可控的样本,不用太多;因模型太大,GPT-3在子任务训练的时候,并不做梯度更新,不做微调,拼的就是模型的泛化性,不做训练,只做预测。在GPT-3中,meta-learning其实就类似GPT-2里边的Multitask learningin-context learning其实就类似zero-shotone-shotfew-shot,只不过是为了和之前GPT模型区分开来才出现的新词而已。GPT-3不更新梯度,定义好任务之后,真正做任务之前,one-shot告诉模型一个例子,模型看到例子对应的整个句子后,能从句子中提取有用的信息来帮助后面的推理,虽然例子是训练样本,但不会对模型做梯度更新,而是在模型做前向推理时,能通过注意力机制处理较长的序列信息,从而从例子中间抽取出有用的信息来帮助下面的推理,这也就是上下文学习的由来。few-shot是对one-shot的拓展,之前就给一个样本,现在给多个样本,例子可以更长,但更长不一定有用,不一定能抽取出长句子的信息,取决于模型处理的序列长度的能力。GPT-3对新任务更友好,不需要调超参,只需要做预测就行了,但坏处就是训练样本就是特别大(比如英语翻译法语任务,可以在网上找到几百上千个样本来帮助翻译),想放到模型里边是很难的事情,模型有可能处理不过来,第二个问题就是有一个效果还不错的训练样本,每一次预测都得给到模型,因为梯度未更新,并没有存到模型。GPT-3GPT-2数据和模型都大了100倍,效果做出来不出意外地也非常好,实际应用的效果非常惊艳,纯属暴力出奇迹;
    • 开源社区崛起,Meta推出LLaMA系列,降低大模型使用门槛;多模态模型(如GPT-4Gemini)实现文本、图像、音频的跨模态融合;
    • 后续模型如GPT-42023)、LLaMA2023)突破万亿参数规模‌。
  2. 技术优化方向‌
    • 稀疏注意力机制、混合专家系统(MoE)降低计算成本;多模态融合与指令微调增强任务适应性‌。

多模态与专业化升级(2023s-2025s)

  1. 垂直领域渗透
    • LLM技术深入行业场景(2023),医疗、金融、教育等领域涌现专业化模型(如DeepSeek-R1Claude),在医疗诊断辅助、金融风险评估、教育个性化推荐等场景加速落地,模型通过自我进化机制(如数据进化、模型进化)提升复杂推理能力‌,强调推理能力与垂直领域的适配性;
  2. 安全与标准建设
    • 国际标准《大语言模型安全测试方法》发布(2024),推动LLM伦理对齐与安全可控;混合专家架构(MoE)、联邦学习等技术优化模型效率与隐私保护;
  3. DeepSeek开源(2025年初),加速AGI落地
    • DeepSeek-R1等模型实现低成本高性能训练,结合Agent智能体技术构建自主决策能力,加速AGI技术落地。

LLM技术演进特征

  • ‌规模增长‌:从统计模型(百万参数)到LLM(万亿参数),模型规模呈指数级增长‌;
  • ‌能力扩展‌:从文本预测扩展至复杂语义理解、跨模态生成及自我优化‌;
  • 算法创新:从单一语言理解向多模态交互、自主智能体演进,动态稀疏训练、无监督对齐等技术持续突破算力与数据瓶颈;
  • 行业变革:LLM重塑教育、医疗、制造等领域的知识服务模式(如ACLAS的全球化AI教育平台),推动生产力跃迁与全球协作;
  • 安全治理:开源生态与标准化建设并行,平衡技术创新与伦理风险,探索人机协作的可持续发展路径;
  • 研究焦点‌:当前聚焦于提升推理效率、降低能耗与增强可解释性‌。
  • LLM从符号主义时代的理论萌芽,历经深度学习革命与预训练模型爆发,最终演化为多模态、专业化、安全可控的下一代AI基础设施,持续拓展人类认知与机器智能的融合边界。

AI Agent

Agent是什么

定义

AI Agent是一种概念方法论,围绕LLM建设一个生态,形成智能体。它能够‌感知环境、自主决策并执行任务,通过LLM作为核心大脑,结合记忆模块、规划能力和工具调用机制,实现类似人类的目标驱动行为‌。

  1. prompt来引导LLM进行规划(ReflectionSelf-criticsChain-of-ThoughtsSubgoal-decomposition),进而做出正确的决策,有了一步步的输出。
  2. 输出给到tools,去做真正的action,也就是执行。
  3. memory在规划中也有很大的作用,通常大模型和外部的交流和接触是通过memory去获取的。

LLM-Agent的两种架构

  1. LLM + 记忆 + 规划 + 工具 + 反馈

    Desktop View AI Agent 架构

  2. 生物学角度理解

    Desktop View AI Agent 架构(生物学角度理解)

Agent为什么出现?

用户输入-LLM模型输出的模式,从功能看起来更像是一个大脑决策(任务规划)的角色,AI Agent是大语言模型能力的外延(LLM+插件+执行流程),大模型能力是有上限的,端到端虽然理想,但是复杂问题很难解决,Agent这种拆解形式,会更加流行。AI AgentLLM具备目标实现能力,并通过自我激励循环来实现给定的目标。LLMLangChain等工具相结合,释放了内容生成、编码和分析方面的多种可能性,目前在ChatGPT插件中比较有代表性的插件就是code interpreter。在通往AGI通用人工智能的路上,AI Agent是必经之路。

LLM的缺点

  1. 它是基于训练数据的概率统计规律,并非是真实逻辑,会产生幻觉;
  2. 结果并不总是真实的;
  3. 对时事的了解有限或一无所知;
  4. 很难应对复杂的计算;
  5. 缺少垂直领域的数据。

Agent的优势

  1. 给模型加各种外挂,添加五官和手脚,实现感知和动作,让专业的人做专业的事。
  2. 给概率统计规律,连接了真实世界的逻辑,所以更加强大。
  3. 直接由LLM端到端实现AGI,当前不太可能,就像聪明的人类会使用工具一样,把LLM作为Agent中心,将复杂任务分解,在每个子步骤实现自主决策和执行。
  4. LAMLarge-Agent Models)成为当前主流。
  5. 外部工具,比如谷歌搜索(获取最新信息)、Python REPL(执行代码)、Wolfram(进行复杂的计算)、外部API(获取特定信息)等。

Agent的组成

记忆、规划、工具

记忆 Memory

Desktop View AI Agent Memory

规划 Planning

一项复杂的任务通常涉及许多步骤,Agent必须了解任务是什么并提前进行规划,通常通过Prompt提示词工程来实现。

任务分解

Desktop View AI Agent Planning 任务分解

自我反省

自我反省,允许Agent通过完善以往行动决策和纠正以往错误来迭代改进。

  1. ReAct
    • 将动作空间扩展为一个任务特定的离散动作和语言空间的组合,将推理和动作集成在LLM中,引导LLM如何输出和思考;
    • 融合ReasoningActing的一种Prompt范式,仅仅包含thought-action-observation步骤,很容易判断推理的过程的正确性。

    Desktop View AI Agent Planning ReAct

  2. Self-ask
    • 一种follow-up的使用范式,仅仅包含follow-upimmediate answer步骤;
    • Self-ask需要一个/少量Prompt来引导LLM如何回答Prompt问题。整个过程中,会大量的跟搜索引擎或向量知识库交互,不断地自我问答,来提升大语言模型(绿色背景为LLM输出,白色是LLM的输入,下划线为Inference-time)。

    Desktop View AI Agent Planning Self-ask

工具 Tools

借助外部API工具,补充LLM缺少的行动能力,让专业的人做专业的事。Action,有了工具,就可以执行了。

Desktop View AI Agent Tools

Agent热门应用

  1. 模拟智能体(Simulations Agent
    • 在模拟器中包括一个或多个Agent相互作用;
    • 主要组成包括长期记忆、模拟环境,多个Agent之间相互作用,离不开对环境的依赖;
    • 比较著名的例子,比如斯坦福“西部世界”(Generative Agent)、Role-Playing框架(CAMEL)等。
  2. 自动化智能体(Automatic Agent
    • 给定一个或多个长期目标,独立执行这些目标;
    • 比如AutoGPTBabyGPTAgentGPT
  3. 多模态智能体(Multimodal Agent
    • 除了NLP信息外,还可以拓展到图像、语音、视频的交互;
    • 比如Visual ChatGPTAssistGPTHuggingGPT等。

Agent问题和挑战

  1. 目前Agent需要人为设计;
  2. 依赖大模型的核心能力,大模型本身够强才行;
  3. 链路过长,某一环节出错,前功尽弃;
  4. 多次调用大模型,效率不高;
  5. 迁移能力弱,换模型需要重新写提示词;
  6. 能力强弱,取决于写提示词的水平;
  7. 无论是AI技术,还是Agent发展,都处于探索阶段,离AGI还有一段距离,当前可以把它作为一个助手使用,提高效率,并不能完全托管。

结语

AI Agent的崛起标志着AI从‌被动响应‌迈向‌主动创造‌的新纪元。作为LLM的“行动化身”,它正以三种范式重构人机交互。

  1. 从工具到伙伴‌:通过自主规划与工具调用,AI Agent突破传统AI的“指令-执行”边界,成为能独立完成复杂任务的智能体(如自主科研实验设计、跨平台商业决策);
  2. 从孤岛到生态‌:多智能体协作系统(Multi-Agent Systems)正在形成动态网络,通过角色分工与博弈机制实现群体智能涌现(如自动驾驶车群协同、供应链博弈优化);
  3. 从感知到创造‌:结合多模态感知与具身智能(Embodied AI),AI Agent开始突破数字世界,在物理空间中操作机器人、调控工业设备,催生“硅基生命”的早期雏形。

这一进程不仅将重塑生产力范式(据Gartner预测,到202750%企业流程将由AI Agent主导‌),更在叩击人类文明的核心命题——当机器具备目标拆解、策略迭代和自我进化能力,我们亟需在技术狂飙中构建‌价值锚点‌:如何在效率革命与伦理约束间取得平衡?如何定义人机协作的“可控边界”?这或许才是AI Agent时代留给人类的最大课题。

数字世界的“认知革命”已然启幕,而真正的颠覆,或许才刚刚开始。

2025 Agent元年 于 北京 记

本文由作者按照 CC BY 4.0 进行授权

© ManShouyuan. 保留部分权利。

本站总访问量 本站访客数人次

🚩🚩🚩🚩🚩🚩