百度文心大模型5.0发布

日常工作生活中，你有借助过AI的帮助吗？比如做一份旅游攻略，或是寻找海报设计灵感、亦或者相关文案内容创作？无论是万能助手Deepseek，还是创作助手豆包、即梦AI 、文心一言等，相信大家或多或少都有过涉猎。

最近几年，AI工具都在不断的升级迭代，2025百度世界大会上，文心大模型5.0正式亮相，百度创始人李彦宏介绍，该模型支持全模态理解、创意写作、指令遵循及智能体规划等能力。发布会上，2.4万亿参数的数据尤其亮眼，据悉该参数达到业界已公开参数的模型之最。

目前，文心大模型5.0 Preview已同步上线文心App，用户可直接体验。开发者和企业用户也可通过百度千帆大模型平台，调用文心大模型5.0 API 服务。据百度CTO王海峰介绍，文心5.0是一款原生全模态大模型，具有原生全模态建模、理解与生成一体化等特点。当文本、图像、音频、视频不再成为互相孤立的信息孤岛，当AI能像人类一样“看图说话”“听声辨意”，甚至“以文生画”，一个原生全模态的智能时代，似乎正在朝着我们快步走来。

文心一言七年的进化之路

在深入了解文心大模型5.0之前，我们有必要先浅知一下文心一言的前世今生。在人工智能发展的洪流下，百度在2019年就敏锐地察觉到人工智能的巨大潜力，投入大量资源进行基础研究。当年3月，百度就正式发布知识增强的文心大模型ERNIE1.0，这一版本的模型聚焦文本理解，解决了机器对人类语言的基础认知问题；同年7月，百度文心大模型升级到2.0版本，通过持续学习框架，在共计16个中英文任务上取得全球最好效果；到了2021年，文心3.0正式推出，首次在千亿级预训练模型中引入大规模知识图谱，实现“多模态融合”，但生成能力仍局限于单一模态。

从2019年到2021年，这一周期，从早期的词法分析、句法分析，到语义理解、知识图谱构建，文心一言在不断为多模态奠定基础。

时间到了2023年，2023百度世界大会上，李彦宏宣布文心大模型4.0正式发布，这一次实现了基础模型的全面升级，且在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力有显著提升。当时比较可惜的是，模型能“看”图，却无法“听”懂视频里的对话；能“写”文章，却无法根据一段语音描述直接生成配图。

接着就是现在，2025年已接近尾声，文心大模型5.0出现了。百度创始人李彦宏在大会上表示，“智能本身是最大的应用，而技术迭代速度是唯一护城河”。

文心5.0的的原生全模态有哪些特征？

不同于以往，文心以“单点突破”技术为主，本次文心5.0是一场“感官融合革命”，其核心特征，具体可概括为两点：

一是原生全模态建模。这也是文心5.0的核心突破，百度首席技术官王海峰介绍，不同于业界多数的多模态模型采用后期融合的方式，如文本模型只能处理文字，图像模型只能处理图片，容易丢失跨模态关联信息。文心5.0的技术路线是采用统一的自回归架构进行原生全模态建模，理解与生成一体化。从训练开始便融合语言、图像、视频、音频等多模态数据，使得多模态特征在统一架构下充分融合并协同优化，实现原生的全模态统一理解与生成。这就好比人类大脑通过视觉、听觉、触觉协同感知世界。

二是智能体规划与工具应用能力。文心5.0“统一建模”的技术路径，让AI从“专才”进化为“通用智能体”，基础能力全面升级。在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出，拥有强大的理解、逻辑、记忆和说服力。

从发布会了解到，依托飞桨深度学习框架，文心5.0采用了超稀疏混合专家架构，进行庞大的全模态训练，总参数规模超过2.4万亿，激活参数比例低于3%，在保持模型强大能力的同时有效提升推理效率。同时，基于大规模工具环境，合成长程任务轨迹数据，并采用基于思维链和行动链的端到端多轮强化学习训练，显著提升了模型的智能体和工具调用能力。

此前在11月8日，LMArena大模型竞技场最新排名显示，文心模型ERNIE-5.0-Preview-1022在文本任务评测中位列全球并列第二、中国第一。在40余项权威基准的综合评测中，文心5.0 Preview在语言、视觉理解、音频理解、视觉生成上，超过多款国内外主流模型，其语言与多模态理解能力与Gemini-2.5-Pro、GPT-5-High等模型持平，图像与视频生成能力与垂直领域专精模型相当，达到全球领先水平，验证了原生全模态大模型的能力和潜力，尤其在创意写作、事实性智能体规划与工具应用等方面表现较好。

实操文心5.0Preview，创作门槛的消亡与重构

文心大模型5.0 已上线百度千帆平台，用户登录即可调用，但部分能力暂未支持，如视频生成。为了验证，我们进行一个简单的小实操，分别在文心大模型4.5Turbo和文心5.0Preview输入同一个简单指令——“武汉两日一夜游攻略，尽可能细致，包含线路美食交通等”，让我们来看一下结果：

从结果中显示，同样参考自9个网页，文心5.0Preview明显比文心4.5Turbo的攻略更加全面细致，比如行程上会有具体时间的安排，美食上会有人均价格的提醒，在整个攻略的串联性与完整性上，文心5.0的安排更加合理且符合事实。若是没有对比，会觉得文心4.5Turbo的建议也不错，但经过对比，文心5.0Preview的事实性智能体规划则更有说服力。也就是说，同样的信息攫取，同样简单模糊的指令投喂，文心5.0的分析理解力的确更胜一筹。

文字之后，也上传过相关视频让文心5.0Preview解读，确实能够准确的读出视频的大概主旨及拍摄细节，解决了之前能“看”图，却无法“听”懂视频里的对话的瓶颈。文心5.0就仿佛是我们雇佣的一个实习生，帮助你在生活工作上，先一步进行梳理。

从发布会信息及实操中我们可以发现，文心5.0对互联网内容创作的影响，远超“工具替代”的表层逻辑，大概展现出三个内在逻辑。

一个是创作门槛的“极致降低”。以前，生产一条高质量的“图文+视频”内容，需要掌握文案、设计、剪辑等多项技能，或者需要多个人协同工作，可能要花费大量的时间精力；如今，即使是“小白”用户，只需输入一段文本，就能生成专业级内容。

二是，内容形态的“融合革命”。之前AI以单一形态为主，文字是文字，图片是图片，而文心5.0推动的“多模态融合”正在重构内容消费习惯。比如，有可能广告不再是“静态海报”，而是“动态视频+交互设计+个性化推荐”的沉浸式体验。这种“融合”不仅提升了信息传递效率，也重新定义了“内容”的边界。

三是创作者角色的“价值重构”。当AI能完成“生成内容”的基础工作，人类创作者的价值就不再是“执行”，而是补充与创意，正如我们常说的，“你的AI我的AI好像不一样”。AI带来的信息是片面的，而人类需要去验证并补充完整真相。在这个过程中，人类要发挥自己的创意，具备“跨模态叙事能力”，比如能设计“文本-图像-视频”的联动逻辑，能引导AI生成符合情感需求的内容，能在AI生成的“信息洪流”中提炼独特观点。

这三个内在逻辑，似乎在昭示着一个事实，文心5.0的发布，正在引导AIGC加快进入“多模态、高拟真、低门槛”的“后真相”时代。所谓“后真相时代”，就是人们把情绪放在真相之前，由情绪来引导认知的时代。英国学者赫克托·麦克唐纳在《后真相时代》一书中提出一个概念，叫作“竞争性真相”，意思是通过许多不同的方式描述一件事物，这些描述具有同等的真实性，但只包含片面的真相。在后真相时代，围绕“叙事”的较量成为认知域战场的重要阵地，人类创作者与AI的默契协同，就显得尤为关键。

李彦宏在大会上提出“只有当AI被内化为原生的内在基因，才能真正实现效果涌现并创造社会红利”，并强调未来AI的衡量标准将从技术演示转向实际价值创造。

从2019年开始，文心一言在互联网展露头角，就在不断进化的路上，直到如今文心5.0的发布，围绕原生全模态建模，展示智能体规划与工具应用能力。文心5.0不仅让AI更“懂”世界，更让人类重新思考“创造”的本质。后真相时代的关键是情绪引导，所以，未来人类与AI的关系，将是“创意的引导者”与“执行的放大器”的协同——我们负责定义“为什么创造”，AI负责解决“如何创造”。

文心5.0开启的，不仅是技术的跃迁，更是人类对“智能”本质的重新认知。当机器开始“看”“听”“说”，人类的“创造”将走向更辽阔的疆域。