大模型Agent开发经验变迁

最初大模型开发,只是将其看做具备生成下一个token的能力,所以应用场景多是在一些处理非结构化数据的场景,比如从与用户对话的录音和文本中挖掘有价值的信息。
直到GPT O1和DeepSeek R1出现,让大模型具备了Reasoning能力,让开发具备ReAct能力的Agent成为现实。
R1的出现,让原本需要大量SFT模型微调才能适配业务的问题得以解决,只需要提供有价值的Prompt和上下文,就可以做到很好的水平。
比如直接将用户和销售的对话内容扔给大模型,让其分析出购买意向,及时捕捉情绪和意图,既可以解决用户问题,还可以提升用户体验。
如何一步步落地Agent?其实这件事也可以交给大模型。
比如你写清楚你的目标,让DeepSeek帮助你落地一份可持续的项目框架。
它就可以将整个工作拆成4个步骤:
1、RAG框架:落地RAG框架,用于知识库的存储与检索,将外部知识库作为检索信息提供给大模型上下文,可以有效减少模型幻觉,提升回答准确性
2、知识库的构建与清洗:在RAG之前,是一套MLOps工程,目的是标注与加工,产出高质量的业务知识
3、提示词工程:系统化编写和迭代Prompt
4、工作流搭建:将各个模块用workflow的方式串联起一个完整的处理流程
如何编写提示词?
可以收集数百份优秀的人工和客户的对话记录,归纳出沟通要点和语气风格,结合大模型输出初始版本的提示词。
随后借助人工评估+AI辅助评估+业务专家评估的多重校验方式,反复迭代。
慢慢的就可以敲定指定场景下的系统提示词了,它具备了专属人设、沟通语气、回答风格等特点。
如何构建知识库?
知识库构建主要是围绕于数据清洗与处理,最初的原始文档直接放到知识库,准确率只有30%~40%,主要问题在于缺少准确的文档切分和组织。
最好的方式是以AI Native的方式重新组织知识库,比如业务专家用Markdown格式,对知识库内容进行重构,同时定义清洗脚本,对数据进行脱敏、段落重组与语义切分。
经过清洗处理的Markdown文档导入知识库后,AI准确率提升到了70%~80%,再结合对向量化模型检索策略和调优,知识库的最终检索准确性达到了90%以上,基本满足业务需求。
串联核心能力。
有了提示词和支持库后,就需要通过workflow串联流程。
最初的版本是:接收用户问题 -> 向量化检索知识库 -> 构建Prompt -> 调用大模型 -> 返回推理结果。
但这种模式无法处理多轮对话,Rag检索的信息也存在一定的检索不准问题,需要升级,支持更复杂的能力。
比如引入意图识别模块,用轻量级的模型预先进行意图判断,对于简单或闲聊的问题,直接导流到更低参数的模型处理。
多轮对话中,要结合历史对话内容,重写用户当前对话意图,生成更适合知识库检索的查询语句。
同时还要对用户输入及模型输出的内容进行安全审查,过滤掉敏感或不合规的内容。
引入短期和长期记忆存储的模块,让Agent具备为用户提供个性化对话的能力。
我们一开始就没有准备采用类似于Dify这样编排的框架,因为预估这样可拖拽的框架在未来扩展性上一定受限,我们更多是参考LangChain和langgraph做了一个自研框架,定制起来更灵活,也更可以和现有的数字化系统进行衔接。
上线后的Agent也是一个不断迭代的工作,定期收集bad case和反馈,不断针对性的优化和迭代。
比如:
1)Agent跑任务,输出结果;
2)用评估系统打分(多个评分器类似做强化学习依赖reward,比如名称匹配、长度、相似度,每个评分器都有阈值,超过0.85分才算通过),找出问题;
3)用另一个Agent改Prompt,再跑;
在人定义好的框架内打转,无限循环。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



