中科院清北重磅发布：「上下文工程」的系统脉络图来了

一份来自中科院计算技术研究所的调研报告，可能会改变您对AI系统架构的认知

还记得去年大家疯狂研究怎么写好prompt吗？那时候我们觉得掌握了几个"请一步步思考"的技巧就能驾驭大模型了。不过，中科院计算所的研究者们最近发布的这份调研报告告诉我们：时代变了！他们分析了超过1400篇研究论文后发现，传统的提示工程已经远远跟不上现代AI系统的复杂性了。

这张题图为“上下文工程演进时间线”，全面地描绘了“上下文工程”在2020年至2025年7月的关键发展脉络，其中绿色分支为RAG，咖啡色分支为记忆系统（Memory Systems）早期的探索可以追溯到 NTM (神经图灵机) 等概念。紫色分支为工具增强推理 (Tool-Augmented Reasoning)，黑色分支为多智能体系统 (Multi-Agent Systems)，感兴趣您可以停留片刻，仔细看一下。

内容隐藏

为什么提示工程不够用了？

上下文工程的数学定义

双层架构：从基础积木到智能系统

第一层：基础组件 - 上下文工程的"技术积木"

上下文检索与生成 (Context Retrieval and Generation)

上下文处理 (Context Processing)

上下文管理 (Context Management)

第二层：系统实现 - 智能应用的四大支柱

检索增强生成 (RAG) - 让AI拥有实时知识

写在最后

为什么提示工程不够用了？

您有没有发现，现在的AI助手不再是简单的问答机器？它们需要调用外部工具、维护对话记忆、处理多模态输入，还要在多智能体环境中协作。研究者指出，这时候如果还把"上下文"理解为一个简单的文本prompt，就像用小马拉大车一样力不从心。真实的AI系统需要处理的是一个动态、结构化的信息生态系统，包含知识检索、工具调用、状态管理等多个维度。

想象一下您在开发一个AI客服系统：它不仅要理解用户问题，还要查询产品数据库、调用订单API、记住对话历史，甚至要与其他智能体协作解决复杂问题。这种复杂性远超传统prompt能处理的范围，我们需要一套全新的理论框架。《第一性原理的Context Engineering工具、指南》

上下文工程的数学定义

研究者们给出了一个很有趣的数学对比。传统提示工程可以表示为C = prompt，就是一个静态字符串。但上下文工程则是C = 𝒜(c₁, c₂, ..., cₙ)，其中𝒜是动态组装函数，各个c代表不同的信息组件。这个转变听起来抽象，但其实反映了一个根本变化：我们从手工艺转向了工程学。

上表清晰对比了传统提示工程与现代上下文工程的核心差异，从模型复杂度、目标定义到扩展性和错误分析等多个维度展现了这一范式转变。

具体来说，现代AI系统的上下文包含六个核心组件：

系统指令(c_instr)、
外部知识(c_know)、
工具定义(c_tools)、
持久记忆(c_mem)、
动态状态(c_state)
用户查询(c_query)。

每个组件都有自己的获取、处理和优化策略，而组装函数𝒜负责将它们有机结合。这就像搭建一个复杂的信息处理流水线，每个环节都需要精心设计。

双层架构：从基础积木到智能系统

研究者们设计了一个非常有层次感的分类体系，把整个上下文工程领域分为两个层面：基础组件和系统实现。这种分层思路其实挺像软件架构中的分层设计，底层提供基础能力，上层构建复杂应用。我觉得这个框架特别有助于我们理解整个领域的技术脉络。

第一层：基础组件 - 上下文工程的"技术积木"

基础组件就像是乐高积木，每一块都有特定的功能，组合起来就能构建复杂的结构。研究者识别出三个核心阶段，构成了上下文工程的完整流水线：从获取信息，到处理信息，再到管理信息。

上下文工程的完整分类体系：基础组件包括上下文检索生成、处理和管理三个阶段，系统实现涵盖RAG、记忆系统、工具集成和多智能体四大方向。

上下文检索与生成 (Context Retrieval and Generation)

这是整个流程的起点，负责"找到"和"生成"合适的上下文信息。您可以把它想象成一个智能的信息收集员，既要知道从哪里找信息，也要知道如何创造合适的信息。这个阶段包含三个关键技术分支：

提示工程与上下文生成：包括思维链推理（Chain-of-Thought，CoT）、思维树（Tree-of-Thoughts，ToT）、图思维（Graph-of-Thoughts，GoT）等高级推理技术，还有零样本和少样本学习范式，以及认知架构集成等方法。

感兴趣您可以看下这篇《防骗| 连这些引用量最高的核心Prompt都不知道，还敢打着专家大师旗号蒙人》和《14种主流Prompt技术，顶级团队2000次实验，只有这几种真能打》

外部知识检索：涵盖检索增强生成基础技术、知识图谱集成（如KAPING框架）、结构化检索方法，以及智能体和模块化检索系统等前沿方向。

动态上下文组装：包括组装函数和编排机制、多组件集成策略，以及自动化组装优化技术，让不同来源的信息能够智能地组合起来。

上下文处理 (Context Processing)

拿到信息后就要加工处理，这就像是一个智能的信息加工厂。现代AI系统要处理的信息越来越复杂：可能是百万token的超长文档，可能包含图像、音频等多模态内容，还可能涉及复杂的结构化数据。这个阶段包含四个核心技术方向：

长上下文处理：包括状态空间模型（如Mamba）、稀疏注意力机制、位置插值技术（如YaRN、LongRoPE）、FlashAttention等内存优化方法，以及StreamingLLM等流式处理技术。

上下文自我细化与适应：涵盖Self-Refine、Reflexion、N-CRITICS等自我改进框架，还有多方面反馈机制、元学习范式，以及长链式思维（Long Chain-of-Thought）等高级推理方法。

多模态上下文：包括视觉-语言模型集成、跨模态注意力机制、多模态对齐技术，以及视频理解、音频处理等专门技术。

关系和结构化上下文：涵盖知识图谱嵌入、图神经网络集成、结构化数据表示方法，以及文本化编码和程序化表示等创新方法。

上下文管理 (Context Management)

这是最容易被忽视但可能最重要的环节，负责高效地存储、组织和检索上下文信息。就像一个智能的图书管理员，要在有限的空间里存储大量信息，还要能快速找到需要的内容。这个阶段包含三个关键技术领域：

基础约束处理：包括"中间遗失"现象的解决方案、上下文窗口优化技术、计算复杂度管理，以及位置偏差缓解方法。

记忆层次结构与存储架构：涵盖MemGPT等操作系统启发的记忆管理、MemoryBank等动态记忆组织系统、分层缓存机制，以及认知启发的记忆架构。

上下文压缩技术：包括上下文自编码器（ICAE）、递归上下文压缩（RCC）、Activation Refilling（ACRE）等缓存优化技术，以及多智能体分布式处理方法。

第二层：系统实现 - 智能应用的四大支柱

有了基础组件这些积木，就可以搭建真正的智能系统了。研究者重点分析了四种最重要的系统实现，它们基本涵盖了当前AI产品的主要应用场景。

检索增强生成 (RAG) - 让AI拥有实时知识

RAG可能是大家最熟悉的应用了，但论文显示它正在快速进化。现在的RAG不再是简单的"检索+生成"，而是发展出了三种高级形态：

检索增强生成系统的演进：从传统RAG到模块化RAG、智能体RAG和图增强RAG的技术发展路径。

模块化RAG架构：包括FlashRAG工具包、KRAGEN生物医学框架、ComposeRAG组合式架构等，支持灵活的组件组合和独立优化，就像搭积木一样组合不同的检索和生成组件。感兴趣您可以看下这篇《1.6万字Rankify完全指南：三行代码搞定RAG，24种重排序方法任你选 | 全网最详细。》

智能体RAG系统：涵盖PlanRAG规划式检索、自反思RAG（Self-RAG）、CDF-RAG闭环处理等智能体框架，能够自主规划检索策略，像一个会思考的研究员一样工作。

图增强RAG：包括GraphRAG分层索引、LightRAG双层检索、HippoRAG个性化PageRank等技术，利用知识图谱提供更精确的关系推理和多跳推理能力。想象您在开发一个医疗诊断助手，传统RAG只能根据症状关键词找到相关资料，但新一代系统能理解疾病之间的复杂关系，规划多步检索路径。这篇文章中有用到Graphiti《动态数据太折磨人！静态RAG搞不定，就试下ZEP，让Agent调用实时知识图谱。》

记忆系统 - 让AI拥有认知连续性

这可能是最有意思的方向，研究者试图给AI建立类似人脑的记忆机制。记忆系统包含三个层面：

记忆系统的架构设计：涵盖记忆架构、记忆增强智能体和评估挑战三个核心维度，实现AI的长期记忆能力。

记忆架构：包括短期记忆（上下文窗口、键值缓存）、长期记忆（外部存储、参数记忆）、分层记忆系统等基础架构，以及MemOS等结构化记忆框架。

记忆增强智能体：涵盖Charlie Mnemonic、RecMind推荐系统、Voyager自主智能体等实际应用，还有REMEMBERER经验记忆、反思记忆管理等学习机制。

评估与挑战：包括LongMemEval基准测试、MADail-Bench对话评估、episodic memory评估等专门评估框架，以及记忆一致性、时间推理等技术挑战。关键是要解决遗忘和记忆的平衡问题：既要记住重要信息，又要避免信息过载。

不同记忆系统的实现模式对比：从核心记忆系统到智能体系统，再到高级记忆架构的技术演进。

工具集成推理 - 让AI成为行动者

这是从"文本生成器"向"世界交互者"的重要转变。工具集成推理让AI不再满足于生成文本，而是能够调用外部工具执行具体任务。包含三个核心能力：

工具增强系统的发展历程：从基础的文本生成器演进为具备复杂工具调用和环境交互能力的智能体。

函数调用机制：包括Toolformer自监督学习、ReAct思维-行动循环、ToolLLM大规模工具学习等训练方法，以及fine-tuning和prompt engineering两种主要实现途径。《函数调用提示词咋写，看下OpenAI发布的Function Calling指南（万字含示例）｜最新》

工具集成推理：涵盖Program-Aided Language Models（PAL）、ToRA数学推理、Chain-of-Code代码生成等推理框架，还有强化学习优化的工具使用策略。

智能体-环境交互：包括Search-R1动态搜索、VisTA视觉工具选择、ReVeal自进化代码智能体等高级交互系统，以及MCP-RADAR、GTA等评估框架。如何在推理过程中智能地选择和使用工具，如何在复杂环境中持续行动和学习，这些都是这个领域的核心挑战。

不同工具增强架构的能力范围对比：展示了各种方法在搜索检索、计算执行、知识问答等八个工具类别上的覆盖情况。

多智能体系统 - 分布式AI智能的崛起

这代表了AI发展的一个重要方向：复杂任务往往需要多个专业化智能体协作完成。研究者重点分析了三个关键问题：

多智能体系统的协作架构：通信协议、编排机制和协调策略构成了现代多智能体系统的核心技术栈。

通信协议：包括传统的KQML和FIPA ACL标准，以及现代的MCP（"AI的USB-C"）、A2A（Agent-to-Agent）、ACP（Agent Communication Protocol）、ANP（Agent Network Protocol）等新兴协议标准。

编排机制：涵盖AutoGen动态响应生成、CAMEL集成编排、CrewAI适应性框架等编排系统，以及先验编排和后验编排等不同策略。

协调策略：包括SagaLLM事务支持框架、分布式上下文管理、容错机制等技术，以及集中式vs分散式、层次化vs扁平化等不同的协调模式。想象一个软件开发项目：需求分析智能体、架构设计智能体、代码生成智能体和测试智能体需要无缝协作，这就需要标准化的协议和智能的协调机制。

关键技术洞察：理解-生成不对称

这里有个很有意思的发现：研究者指出现在的大模型存在严重的"理解-生成不对称"问题。简单说就是，模型理解复杂信息的能力很强，但生成同等复杂内容的能力却明显不足。您可能也遇到过这种情况：给AI一份复杂的技术文档，它能准确理解并回答问题，但让它写一份同等质量的文档就很困难。

上下文工程的完整技术分类框架：展示了从基础组件到系统实现、评估方法以及未来发展方向的全景图。

这个问题不是小毛病，而是制约AI产品发展的核心瓶颈。研究者认为这可能源于架构限制、训练方法或者计算边界，需要在未来的研究中重点突破。

技术创新的三个方向

研究者指出了几个值得关注的技术方向。新一代架构方面，状态空间模型（比如Mamba）显示出线性扩展的潜力，可能突破transformer的二次复杂度限制。高级推理方面，从链式思维到思维树的演进展现了AI推理能力的巨大潜力。智能化组装方面，自动化的上下文优化算法正在从实验室走向实际应用。

这些技术创新不是孤立的，而是相互促进的。比如，更高效的架构为复杂推理提供了计算基础，而智能化组装又能更好地利用推理能力。作为开发者，您需要关注这些技术的成熟度和互操作性，选择合适的技术栈来构建自己的产品。

不同长链推理方法的效率和准确性对比：从O1-Pruner到PREMISE等方法在处理复杂推理任务时的性能特征。

评估挑战：如何测量复杂系统的性能

评估上下文工程系统是个大难题。传统的BLEU、ROUGE这些指标显然不够用了，我们需要能够评估推理质量、工具使用效率、记忆一致性和协作能力的新方法。研究者提出了组件级评估和系统级评估的双重框架，但实际应用中仍然面临很多挑战。

比如说，怎么评估一个AI智能体的"创造力"？怎么衡量多智能体系统的"协作效率"？怎么测试长期记忆的"可靠性"？这些问题没有标准答案，需要根据具体应用场景设计专门的评估方法。如果您是开发者，您可能需要建立自己的评估体系，包括离线测试和在线监控两个层面。

从参数扩展到上下文扩展

研究者提出了一个重要观点：AI的未来发展方向可能从"参数扩展"转向"上下文扩展"。这意味着我们不再简单地追求更大的模型，而是要构建更智能的信息处理架构。上下文扩展包括长度扩展（处理更长的序列）和多维扩展（整合更多类型的信息）。

这个转变对产品开发有深远影响：未来的AI产品可能不再依赖于拥有最大的模型，而是依赖于最优化的上下文架构。这给中小型开发团队带来了新的机会，也对系统架构能力提出了更高要求。您需要思考的是：如何在有限的计算资源下，构建最高效的上下文工程系统？

写在最后

这篇论文标志着AI开发范式的重要转折点。从简单的提示词工程到复杂的上下文工程，我们正在见证一个新时代的开始。如果您是一名AI产品的开发者或主理人，您需要准备好迎接这个更加复杂但也更加强大的未来。

具体操作上，可以先从RAG系统开始，逐步引入记忆管理和工具集成能力。不要试图一次性构建完整的上下文工程系统，而是采用迭代的方式，根据用户反馈和业务需求逐步扩展。

上下文工程是一门系统性地设计、优化和管理这些信息有效载荷（information payloads）的正式学科，目标是最大化LLM的性能。它是一门涉及信息物流和系统优化的“科学”，而不仅仅是提示词设计的“艺术”。下方是论文的仓库链接。

Github: https://github.com/Meirtz/Awesome-Context-Engineering

为什么提示工程不够用了？

上下文工程的数学定义

双层架构：从基础积木到智能系统

第一层：基础组件 - 上下文工程的"技术积木"

上下文检索与生成 (Context Retrieval and Generation)

上下文处理 (Context Processing)

上下文管理 (Context Management)

第二层：系统实现 - 智能应用的四大支柱

检索增强生成 (RAG) - 让AI拥有实时知识

记忆系统 - 让AI拥有认知连续性

工具集成推理 - 让AI成为行动者

多智能体系统 - 分布式AI智能的崛起

关键技术洞察：理解-生成不对称

技术创新的三个方向

评估挑战：如何测量复杂系统的性能

从参数扩展到上下文扩展

写在最后

发表回复 取消回复

发表回复取消回复