AI会有意识吗?

2025年11月14日,经合组织(OECD)发布《OECD人工智能能力指标技术报告》,就其提出的9个AI能力指标的评估进行了详细解释。
报告开篇即指出:当前AI要么被塑造成救世主,要么被描绘成灭世者。在这个被炒作与恐惧主导的舆论场中,关于AI真实能力的清晰、可靠且细致入微的信息依然惊人地缺失。即便是AI开发者,也无法完全理解当前AI系统的实际能力——或者它们正在以多快的速度进步。
作为应对,这份由OECD牵头、联合全球数十位顶尖计算机科学家和心理学家制定的报告,首次建立了一套系统的AI能力评估框架,提出了9个核心能力指标,包括语言、问题解决、社会互动、创造力、知识-学习-记忆、元认知与批判性思维、视觉、操作及机器人智能,并将每个能力划分为从1到5的五个等级(5级代表达到稳健的人类水平),旨在为政策制定者和公众提供一个评估AI真实能力的“标尺”。
报告的部分内容总结如下:
一、能力指标的政策应用场景
报告通过将AI能力指标与美国职业数据库(O*NET,涵盖了约900种美国职业,包含关于人类能力、技能、知识、工作方式和背景的详细描述)中的人类能力要求进行交叉映射,并开发了“追赶指数”来进行量化分析。该指数衡量的是AI能力水平与任务所需能力水平之间的等级差(范围为0-4),指数为0表示AI已能胜任,指数越大则表示差距越大。
报告具体通过分析三种不同任务的“追赶指数”画像,具体揭示了AI在不同领域的能力差距与未来转型路径。
1.需要高水平推理能力的任务
对于该类任务,报告以编制、分析和核实年度报告及财务报表,并确保其符合各种法规和标准为例进行了分析。研究发现这一工作的追赶指数为2,这意味着当前的AI能力尚未满足该工作要求。
报告认为,虽然目前AI尚无法完成此项任务,但对其组成部分进行研究能够为构建一个设想人类与AI协作完成工作的转型方案提供有价值的见解。在未来情景中,随着AI系统在AI能力指标中的推理能力达到专家级水平,财务报告中的劳动密集型工作可能会在很大程度上实现自动化。这些系统将直接与财务、工资、库存和银行平台对接,实现数据格式的标准化,并持续检查异常、遗漏或重复情况。交易可以根据发票和审批进行验证,自动起草审计追踪,并且只有在需要人工判断或政策裁量时才会发出警报。所有这些工作都可以近乎实时地完成,并且每一步都有清晰的、由机器生成的解释。
在此场景下,人类的专业知识将转向更高价值的职责。专业人士将定义指导AI的会计规则和重要性阈值,审查其标记的少数复杂例外情况,并确定适当的回应或披露。他们将解释系统的输出结果,将其转化为针对高管和监管机构的定价、流动性和风险方面的战略建议,同时对AI进行审计,以确保其符合道德、法律和透明度标准。日常的“数据侦探”工作将委托给机器,使专业人士能够担任政策架构师、战略顾问和信任管理者等角色。
2.要求高水平身体能力的任务
对于该类任务,报告以使用手动或电动工具组装、安装、测试或维护电气或电子线路、设备、器具、装置或固定装置为例进行了分析。研究发现这一工作的追赶指数为1,这意味着当前的AI能力在很大程度上满足了该工作的推理需求,但仍未达到必要的敏捷性和感知能力。
报告认为,在未来情景中,随着具备四级视觉和操控能力的机器人出现并成熟,安装电线的物理工艺将很大程度上转移给AI。自主单元将扫描现场、铺设线管、以力反馈精度拉线和端接导线,并将每一步记录在数字竣工模型中,同时仅在出现规范模糊或障碍时向人类发出警报。电工的角色相应地从动手工作转向更高层次的监管——设定任务参数、授权重新布线、解决标记的合规问题、执行现场检查以获得监管签字,以及维护或微调机器人系统。因此,专业知识向上游转移到规划、监督和持续改进,而不是停留在手动安装上。
3.需要高水平社交互动和推理能力的任务
对于该类任务,报告以鼓励个人和家庭成员发展并使用建设性的应对策略为例进行了分析。研究发现这一工作的追赶指数为2,这是因为当前的AI系统——即使是最有能力的对话模型——仍然难以在多次交流中维持连贯的治疗叙事,推断潜在的家庭权力动态,并使干预措施适应不同的文化或发展背景。
报告认为,随着先进AI系统缩小其在语言、社交互动和问题解决方面与人的差距,沟通技巧培训将从治疗师主导的微观教练练习转变为混合的、数据丰富的工作流程。嵌入摄像头、麦克风和可穿戴设备的多模态模型将实时解析轮流发言、面部情感和生理唤醒,诊断故障并向来访者推送个性化提示。同一引擎通过逼真的虚拟形象生成文化适应的演示,根据压力信号的升降即时调整场景,并编译次次交流的仪表盘,以绘制同理心增益、冲突恢复速度和预测的复发风险图。当超过早期预警阈值时,自动升级标志会在几秒钟内召唤人类临床医生。
在此场景下,治疗师的比较优势将上升到更抽象的层面。人类专业人员不是指导每一次反思性倾听交流,而是策划AI的干预措施,将其编织成连贯的治疗叙事,并在创伤史、权力不对称或文化细微差别要求不同路径时暂停或推翻自动化。伦理守护变得至关重要:从业者审计算法以防止偏见,确保持续感知的同意,并在安全或尊严受到威胁时直接干预。他们还指导来访者理解AI的反馈,培养元认知洞察力,使建设性对话技巧得以内化和持续,即使在传感器关闭之后。最终结果是重塑了婚姻家庭治疗师在关系教练至关重要的各个领域的技能概况和培训需求。
二、AI发展对教育政策的启示
报告认为,AI能力的进步可能会使某些任务实现完全自动化。因此,执行这些任务所需的基础技能在工作场所或日常生活中可能不再必要。这将促使人们对教育系统中使用的学习和教学内容与方法进行重新评估。
然而,某些技能的实践需求减少并不意味着它们缺乏价值或意义。人们可能出于各种原因仍然选择学习它们。AI在技术上能够执行某些技能,并不意味着此类系统应该被普遍应用。此外,技能并非仅仅与职业需求相关——个人可能为了个人乐趣、成就感,或者因为他们相信这些技能具有内在的人类价值而学习它们。
报告提出,此分析的核心问题是:“当AI能比人类更好地完成某些工作或日常任务时,我们是否仍然希望人们学习去做这些任务?”由此问题衍生出三种主要观点:
1.是——该观点强调人们不应变得依赖AI。这意味着人类的能力和自主性很重要,与AI的效率无关。
2.是,但是——这种更细致的立场表明,人类与AI在此特定任务上协同工作将是有益的,并且学习目标应随之演变,以反映AI能做什么和不能做什么。
3.否——从这个角度来看,如果AI能更好地完成任务,那么人们就不应该做这些任务,教育也不应优先教授这些技能。相反,重点应转向更相关的能力。
报告进一步指出,当社会达成共识,认为某些任务或职业应当转型以融入AI,且教育体系必须随之调整时,关键在于将转型后人类新角色的能力框架与对应教育项目的课程内容、教学方法及培养层次进行系统性比对。这种比较可以借助教育项目追赶指数(education programme catch-up index,衡量课程所授技能与当前AI能力差距的指标)来引导。
该指数能够为课程内容和目标的定性重新评估提供信息,有可能促使课程本身发生变革。此方法尤其适用于为特定职业输送人才的高等教育课程,但同样适用于基础教育阶段的学科评估。通过将受AI影响的能力需求与现有教学内容及方法进行校准,教育工作者可精准识别需要更新、调整或拓展的环节,从而更有效地培养学生应对变革世界的能力。
三、关于AI意识的争议
报告最后还探讨了引发争议的AI“意识”,由于科学和伦理上的巨大不确定性,该量表最终未被纳入正式的评估指标。
该量表基于这样一个原则:意识源于进行心理模拟的能力,并由通过与环境交互而形成的内部世界模型提供支持。
级别1(无意识):AI系统并未表现出任何意识迹象。
级别2(原始适应性行为):AI系统在应对环境变化时展现出初步的适应性行为。此类系统表现出一定程度的灵活性,类似于简单生物体,其行为调整是由环境反馈驱动的。
级别3(基于世界模型的学习):系统拥有内部世界模型,这些模型使它们能够根据假设的未来行为模拟潜在结果。此类系统开始展现出超越单纯反应行为的自主性,逐渐向由内在动机驱动的目标导向行动转变。
级别4(多感官整合):AI系统展现出了与人类相当的认知能力。
级别5(人类级意识):AI系统实现了人类级别的意识,其特征是符号表征和抽象推理。
报告强调,所提出的AI意识量表旨在作为一个基于特定理论视角——信息生成假说(IGH)的概念性和假设性框架。该量表反映了作者对选定理论框架的解释和综合,主要与计算功能主义相一致。它并非旨在暗示一个权威性或广泛认可的评估AI意识的标准。
报告也提出了一个根本性问题:如果我们在AI中完全实现了所有已知的意识功能,我们是否应该认为这样的AI系统具有意识?归根结底,AI系统是否存在意识不仅是一个学术问题,更是一个具有伦理和监管意义的问题。随着机器可能发展出自主意识的未来,我们必须认真思考有意识AI系统的权利及其创造者的责任。
本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。



