返回文章列表
行业动态

百度文心大模型5.0发布

匿名
2025-11-18
1小时前
百度文心大模型5.0发布

日常工作生活中,你有借助过AI的帮助吗?比如做一份旅游攻略,或是寻找海报设计灵感、亦或者相关文案内容创作?无论是万能助手Deepseek,还是创作助手豆包、即梦AI 、文心一言等,相信大家或多或少都有过涉猎。

最近几年,AI工具都在不断的升级迭代,2025百度世界大会上,文心大模型5.0正式亮相,百度创始人李彦宏介绍,该模型支持全模态理解、创意写作、指令遵循及智能体规划等能力。发布会上,2.4万亿参数的数据尤其亮眼,据悉该参数达到业界已公开参数的模型之最。

目前,文心大模型5.0 Preview已同步上线文心App,用户可直接体验。开发者和企业用户也可通过百度千帆大模型平台,调用文心大模型5.0 API 服务。据百度CTO王海峰介绍,文心5.0是一款原生全模态大模型,具有原生全模态建模、理解与生成一体化等特点。当文本、图像、音频、视频不再成为互相孤立的信息孤岛,当AI能像人类一样“看图说话”“听声辨意”,甚至“以文生画”,一个原生全模态的智能时代,似乎正在朝着我们快步走来。


文心一言七年的进化之路

在深入了解文心大模型5.0之前,我们有必要先浅知一下文心一言的前世今生。在人工智能发展的洪流下,百度在2019年就敏锐地察觉到人工智能的巨大潜力,投入大量资源进行基础研究。当年3月,百度就正式发布知识增强的文心大模型ERNIE1.0,这一版本的模型聚焦文本理解,解决了机器对人类语言的基础认知问题;同年7月,百度文心大模型升级到2.0版本,通过持续学习框架,在共计16个中英文任务上取得全球最好效果;到了2021年,文心3.0正式推出,首次在千亿级预训练模型中引入大规模知识图谱,实现“多模态融合”,但生成能力仍局限于单一模态。

从2019年到2021年,这一周期,从早期的词法分析、句法分析,到语义理解、知识图谱构建,文心一言在不断为多模态奠定基础。

时间到了2023年,2023百度世界大会上,李彦宏宣布文心大模型4.0正式发布,这一次实现了基础模型的全面升级,且在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力有显著提升。当时比较可惜的是,模型能“看”图,却无法“听”懂视频里的对话;能“写”文章,却无法根据一段语音描述直接生成配图。

接着就是现在,2025年已接近尾声,文心大模型5.0出现了。百度创始人李彦宏在大会上表示,“智能本身是最大的应用,而技术迭代速度是唯一护城河”。


文心5.0的的原生全模态有哪些特征?

不同于以往,文心以“单点突破”技术为主,本次文心5.0是一场“感官融合革命”,其核心特征,具体可概括为两点:

一是原生全模态建模。这也是文心5.0的核心突破,百度首席技术官王海峰介绍,不同于业界多数的多模态模型采用后期融合的方式,如文本模型只能处理文字,图像模型只能处理图片,容易丢失跨模态关联信息。文心5.0的技术路线是采用统一的自回归架构进行原生全模态建模,理解与生成一体化。从训练开始便融合语言、图像、视频、音频等多模态数据,使得多模态特征在统一架构下充分融合并协同优化,实现原生的全模态统一理解与生成。这就好比人类大脑通过视觉、听觉、触觉协同感知世界。


二是智能体规划与工具应用能力。文心5.0“统一建模”的技术路径,让AI从“专才”进化为“通用智能体”,基础能力全面升级。在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。

从发布会了解到,依托飞桨深度学习框架,文心5.0采用了超稀疏混合专家架构,进行庞大的全模态训练,总参数规模超过2.4万亿,激活参数比例低于3%,在保持模型强大能力的同时有效提升推理效率。同时,基于大规模工具环境,合成长程任务轨迹数据,并采用基于思维链和行动链的端到端多轮强化学习训练,显著提升了模型的智能体和工具调用能力。

此前在11月8日,LMArena大模型竞技场最新排名显示,文心模型ERNIE-5.0-Preview-1022在文本任务评测中位列全球并列第二、中国第一。在40余项权威基准的综合评测中,文心5.0 Preview在语言、视觉理解、音频理解、视觉生成上,超过多款国内外主流模型,其语言与多模态理解能力与Gemini-2.5-Pro、GPT-5-High等模型持平,图像与视频生成能力与垂直领域专精模型相当,达到全球领先水平,验证了原生全模态大模型的能力和潜力,尤其在创意写作、事实性智能体规划与工具应用等方面表现较好。


实操文心5.0Preview,创作门槛的消亡与重构

文心大模型5.0 已上线百度千帆平台,用户登录即可调用,但部分能力暂未支持,如视频生成。为了验证,我们进行一个简单的小实操,分别在文心大模型4.5Turbo和文心5.0Preview输入同一个简单指令——“武汉两日一夜游攻略,尽可能细致,包含线路美食交通等”,让我们来看一下结果:

从结果中显示,同样参考自9个网页,文心5.0Preview明显比文心4.5Turbo的攻略更加全面细致,比如行程上会有具体时间的安排,美食上会有人均价格的提醒,在整个攻略的串联性与完整性上,文心5.0的安排更加合理且符合事实。若是没有对比,会觉得文心4.5Turbo的建议也不错,但经过对比,文心5.0Preview的事实性智能体规划则更有说服力。也就是说,同样的信息攫取,同样简单模糊的指令投喂,文心5.0的分析理解力的确更胜一筹。

文字之后,也上传过相关视频让文心5.0Preview解读,确实能够准确的读出视频的大概主旨及拍摄细节,解决了之前能“看”图,却无法“听”懂视频里的对话的瓶颈。文心5.0就仿佛是我们雇佣的一个实习生,帮助你在生活工作上,先一步进行梳理。

从发布会信息及实操中我们可以发现,文心5.0对互联网内容创作的影响,远超“工具替代”的表层逻辑,大概展现出三个内在逻辑。

一个是创作门槛的“极致降低”。以前,生产一条高质量的“图文+视频”内容,需要掌握文案、设计、剪辑等多项技能,或者需要多个人协同工作,可能要花费大量的时间精力;如今,即使是“小白”用户,只需输入一段文本,就能生成专业级内容。

二是,内容形态的“融合革命”。之前AI以单一形态为主,文字是文字,图片是图片,而文心5.0推动的“多模态融合”正在重构内容消费习惯。比如,有可能广告不再是“静态海报”,而是“动态视频+交互设计+个性化推荐”的沉浸式体验。这种“融合”不仅提升了信息传递效率,也重新定义了“内容”的边界。


三是创作者角色的“价值重构”。当AI能完成“生成内容”的基础工作,人类创作者的价值就不再是“执行”,而是补充与创意,正如我们常说的,“你的AI我的AI好像不一样”。AI带来的信息是片面的,而人类需要去验证并补充完整真相。在这个过程中,人类要发挥自己的创意,具备“跨模态叙事能力”,比如能设计“文本-图像-视频”的联动逻辑,能引导AI生成符合情感需求的内容,能在AI生成的“信息洪流”中提炼独特观点。

这三个内在逻辑,似乎在昭示着一个事实,文心5.0的发布,正在引导AIGC加快进入“多模态、高拟真、低门槛”的“后真相”时代。所谓“后真相时代”,就是人们把情绪放在真相之前,由情绪来引导认知的时代。英国学者赫克托·麦克唐纳在《后真相时代》一书中提出一个概念,叫作“竞争性真相”,意思是通过许多不同的方式描述一件事物,这些描述具有同等的真实性,但只包含片面的真相。在后真相时代,围绕“叙事”的较量成为认知域战场的重要阵地,人类创作者与AI的默契协同,就显得尤为关键。




李彦宏在大会上提出“只有当AI被内化为原生的内在基因,才能真正实现效果涌现并创造社会红利”,并强调未来AI的衡量标准将从技术演示转向实际价值创造。

从2019年开始,文心一言在互联网展露头角,就在不断进化的路上,直到如今文心5.0的发布,围绕原生全模态建模,展示智能体规划与工具应用能力。文心5.0不仅让AI更“懂”世界,更让人类重新思考“创造”的本质。后真相时代的关键是情绪引导,所以,未来人类与AI的关系,将是“创意的引导者”与“执行的放大器”的协同——我们负责定义“为什么创造”,AI负责解决“如何创造”。

文心5.0开启的,不仅是技术的跃迁,更是人类对“智能”本质的重新认知。当机器开始“看”“听”“说”,人类的“创造”将走向更辽阔的疆域。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议