大模型Agent开发经验变迁

最初大模型开发，只是将其看做具备生成下一个token的能力，所以应用场景多是在一些处理非结构化数据的场景，比如从与用户对话的录音和文本中挖掘有价值的信息。

直到GPT O1和DeepSeek R1出现，让大模型具备了Reasoning能力，让开发具备ReAct能力的Agent成为现实。

R1的出现，让原本需要大量SFT模型微调才能适配业务的问题得以解决，只需要提供有价值的Prompt和上下文，就可以做到很好的水平。

比如直接将用户和销售的对话内容扔给大模型，让其分析出购买意向，及时捕捉情绪和意图，既可以解决用户问题，还可以提升用户体验。

如何一步步落地Agent？其实这件事也可以交给大模型。

比如你写清楚你的目标，让DeepSeek帮助你落地一份可持续的项目框架。

它就可以将整个工作拆成4个步骤：

1、RAG框架：落地RAG框架，用于知识库的存储与检索，将外部知识库作为检索信息提供给大模型上下文，可以有效减少模型幻觉，提升回答准确性

2、知识库的构建与清洗：在RAG之前，是一套MLOps工程，目的是标注与加工，产出高质量的业务知识

3、提示词工程：系统化编写和迭代Prompt

4、工作流搭建：将各个模块用workflow的方式串联起一个完整的处理流程

如何编写提示词？

可以收集数百份优秀的人工和客户的对话记录，归纳出沟通要点和语气风格，结合大模型输出初始版本的提示词。

随后借助人工评估+AI辅助评估+业务专家评估的多重校验方式，反复迭代。

慢慢的就可以敲定指定场景下的系统提示词了，它具备了专属人设、沟通语气、回答风格等特点。

如何构建知识库？

知识库构建主要是围绕于数据清洗与处理，最初的原始文档直接放到知识库，准确率只有30%~40%，主要问题在于缺少准确的文档切分和组织。

最好的方式是以AI Native的方式重新组织知识库，比如业务专家用Markdown格式，对知识库内容进行重构，同时定义清洗脚本，对数据进行脱敏、段落重组与语义切分。

经过清洗处理的Markdown文档导入知识库后，AI准确率提升到了70%~80%，再结合对向量化模型检索策略和调优，知识库的最终检索准确性达到了90%以上，基本满足业务需求。

串联核心能力。

有了提示词和支持库后，就需要通过workflow串联流程。

最初的版本是：接收用户问题 -> 向量化检索知识库 -> 构建Prompt -> 调用大模型 -> 返回推理结果。

但这种模式无法处理多轮对话，Rag检索的信息也存在一定的检索不准问题，需要升级，支持更复杂的能力。

比如引入意图识别模块，用轻量级的模型预先进行意图判断，对于简单或闲聊的问题，直接导流到更低参数的模型处理。

多轮对话中，要结合历史对话内容，重写用户当前对话意图，生成更适合知识库检索的查询语句。

同时还要对用户输入及模型输出的内容进行安全审查，过滤掉敏感或不合规的内容。

引入短期和长期记忆存储的模块，让Agent具备为用户提供个性化对话的能力。

我们一开始就没有准备采用类似于Dify这样编排的框架，因为预估这样可拖拽的框架在未来扩展性上一定受限，我们更多是参考LangChain和langgraph做了一个自研框架，定制起来更灵活，也更可以和现有的数字化系统进行衔接。

上线后的Agent也是一个不断迭代的工作，定期收集bad case和反馈，不断针对性的优化和迭代。

比如：

1）Agent跑任务，输出结果；

2）用评估系统打分（多个评分器类似做强化学习依赖reward，比如名称匹配、长度、相似度，每个评分器都有阈值，超过0.85分才算通过），找出问题；

3）用另一个Agent改Prompt，再跑；

在人定义好的框架内打转，无限循环。