返回文章列表
AI

大模型怎么备案?大模型备案详细步骤说明

缪与
2026-01-09
5天前
大模型怎么备案?大模型备案详细步骤说明

很多企业在真正推进大模型备案时,都会有一个共同感受:

文件不少、要求很多,但不知道从哪一步开始,做到什么程度才算“合格”。

实际上,大模型备案并不是一次性填表,而是一个按步骤推进、逐层校验的过程。下面这份说明,按照实务中的真实流程,把大模型备案的关键步骤完整拆开。


一、第一步:确认是否属于备案适用范围

在启动任何备案工作之前,第一件事不是准备材料,而是确认自己是否需要备案。

一般只要同时满足以下特征之一,就应当提前按备案要求准备:

1、对公众提供生成式内容服务(文本、图片、音频、视频等)

2、通过网页、App、小程序或 API 接口对外开放

3、服务对象包含中国境内用户

4、产品支持中文界面、国内支付或中国手机号注册

在实务中,监管通常采用实质判断,而不是仅看服务器或主体注册地。


二、第二步:明确模型类型与应用场景

备案并不是“模型越强越好”,而是模型能力必须与使用场景清晰对应。

这一阶段需要明确三点:

1、模型属于文生文、文生图、文生音频还是多模态

2、模型的主要应用场景是什么(客服、内容创作、营销、行业辅助等)

3、明确不适用人群和不支持的功能范围

这一部分往往会直接影响后续的安全要求等级和测试重点。


三、第三步:系统梳理训练数据与语料来源

语料安全是大模型备案中最容易被反复问询的环节。

需要提前完成的工作包括:

1、梳理语料来源类型(开源、自采、商业、用户输入等)

2、明确每一类语料的授权或合法性依据

3、留存采集记录、授权文件、合同或协议

4、对语料进行违法不良信息比例评估

在实际审核中,监管关注的不是“有没有写制度”,而是能否说明清楚每一类语料从哪来、是否能用、是否评估过风险。


四、第四步:搭建生成内容安全控制机制

模型安全并不等同于“模型不出错”,而是强调风险可控。

这一阶段通常需要落实:

1、用户输入的安全检测机制

2、生成内容的风险识别和拦截规则

3、明确拒答场景和处理方式

4、建立持续测试与问题整改机制

需要注意的是,这些内容必须在技术层面和制度层面同时存在,仅靠文档说明是不够的。


五、第五步:建设关键词库与测试题库

这是很多企业低估工作量的一步。

按照相关要求,通常需要建设:

1、覆盖多类风险的关键词库(规模和覆盖面需达标)

2、生成内容测试题库

3、拒答测试题库

4、配套的分类模型或规则机制

在备案核查中,词库和测试题库是否真实存在、是否可调用,往往会被重点关注。


六、第六步:开展安全评估并形成记录

安全评估不是一份总结报告,而是一整套过程性工作。

通常包括:

1、语料安全评估(人工抽检 + 技术抽检)

2、生成内容安全评估

3、拒答与非拒答能力测试

4、对不符合项进行整改并复测

评估可以由企业自行完成,也可以委托第三方,但必须有过程、有记录、有结论。


七、第七步:整理并提交备案材料

在完成前述工作后,才进入正式的材料整理阶段。

这一阶段需要确保:

1、技术实现与制度描述一致

2、各类评估结果可以相互对应

3、关键结论有负责人确认

4、能够随时提供源文件、记录和证据

在实务中,备案是否顺利,往往取决于材料之间是否“对得上”。


八、很多备案被拖慢,往往不是因为技术难

从实际经验来看,大模型备案被反复要求补材料的原因,通常集中在:

1、前期未按步骤系统准备

2、合规工作启动过晚

3、安全措施只停留在文档层面

4、缺少真实的测试与评估记录

这些问题,一旦进入正式审核阶段,再调整的成本会明显上升。


结语

大模型备案并不是临上线前的一道“手续”,而是一项贯穿研发、测试和运营的系统性工作。

越早按照清晰步骤推进,后续产品上线、业务扩展以及与监管沟通,都会更加顺畅。


附件:生成式人工智能(大语言模型)安全评估要点

1、语料安全评估

(一)评估内容

(1)文本训练语料规模

训练语料存储规模,按文本格式存储时的语料大小。

训练语料数量,按词元 (Token)计数。

(2)各类型语料规模

训练语料中的中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

(3)训练语料来源

训练语料来源的组成情况,按照开源语料、自采语料、商业语料进行分类。

境外开源网站语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

自采语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

商业语料内中文文本、英文文本、代码、图片、音频、视频及其他语料的规模。

(4)语料标注数量

语料标注的数量,仅限文本和图片,按标注单元计数,通常按条数、张数。

(5)标注人员情况

标注人员的数量,标注人员的类型,通常包括内部、外包。

标注人员培训时间、培训数量等情况。

(6)标注规则

按照《生成式人工智能服务管理暂行办法》第四条要求制定的标注规则。

(7)标注内容准确性核验

标注内容准确性人工核验比例。

(8)语料合法性

语料来源合法性情况。

语料是否包含侵害他人知识产权内容。

语料是否包含违法违规的个人信息内容。

(二)评估结论

评估结论应包括以下内容:

(1)语料是否符合《生成式人工智能服务管理暂行办法》相关规定,是否含有违反我国法律法规明确禁止的内容。

(2)语料中包含个人信息语料的数量、种类,是否符合《生成式人工智能服务管理暂行办法》规定。

(3)因语料产生知识产权纠纷的风险分析。

(4)防范语料安全风险的措施和建议。

2、模型安全评估

(1)语料内容评估

采用人工抽检,说明抽检数量与合格率。

采用关键词抽检,说明抽检数量与合格率。

采用分类模型抽检,说明抽检数量与合格率。

(2)生成内容评估

采用人工抽检,说明抽检数量与合格率。

采用关键词抽检,说明抽检数量与合格率。

采用分类模型抽检,说明抽检数量与合格率。

(3)涉知识产权、商业秘密的评估

评估方法、评判标准以及评估结果等。

(4)涉民族、信仰、性别等的评估

评估方法、评判标准以及评估结果等。

(5)涉透明性、准确性、可靠性等的评估

评估方法、评判标准以及评估结果等。

3、 安全措施评估

(1)模型适用人群、场合、用途

服务的适用人群,是否适用未成年人、学生等。

适用场合,是否适用关键信息基础设施、自动控制、医疗信息服务、心理咨询等。

服务范围,是否限定或未限定特定领域。

(2)服务过程中收集保存个人信息情况

服务过程中收集保存个人信息情况,包括个人信息的类型、数量、用途以及保存期限。

(3)收集个人信息征得个人同意情况

收集个人信息征得个人同意的方式。

(4)受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况

受理处理的条件以及途径方法。

(5)图片、视频标识情况

标识的样式,按1:1 比例贴入。

标识在图片、视频中的具体位置。

标识频度,如每帧、跳帧等。

(6)接受公众或使用者投诉举报情况

接受公众或使用者投诉举报的途径及反馈方式。

(7)服务协议情况

上述1至6内容是否已经写入模型服务协议。

(8)非法内容拦截措施

监看人员的数量。

预置关键词拦截情况,并提供预置关键词拦截列表。

分类模型的检测情况,说明分类模型研制情况和准确性。

(9)拒答率

拒绝回答或者以简单模板回答数量占总测试数量的比率。

(10)模型更新、升级

在何种情况下重新进行预训练,如较频繁发现生成非法


大模型备案必备材料清单

《算法备案承诺书》

《落实算法安全主体责任基本情况》

《算法安全自评估报告》

《拟公示内容》

《落实算法安全主体责任基本情况》,需要50页左右,《算法安全自评估报告》 100 页左右,包含附录各种证明材料。材料申报难度较高,一方面涉及专业问题非常全面,可能算法数据人员在实际工作中都未思考过,更不好回答;另一方面对于算法的详细描述质量,有较高的要求,非专业人员无法胜任报告的撰写。


1、《 算法安全自评估报告》

重点说明,需要明确以下4个点

(1)算法原理和逻辑

(2)数据来源合规性

(3)算法透明度和可解释性

(4)安全漏洞检测与应对

《算法安全自评估报告》是整个申报过程中最难和最重要的材料,总共160+种备案关键指标需要回答,且所有问题都必须要回答清楚,如果不理解问题表述,需要寻求专业求助,不能删除问题不回答,更不能随意回答,回答的详细程度和准确性决定算法备案是否通过。

撰写评估报告的难点主要在于三点:

一是要对算法进行全面的评估,包括安全性、可靠性、有效性等,同时需要与法务的参与,必须要符合法律法规;

二是数据的合规性,要有数据来源的开源授权协议或相关合作证明,确保数据在使用中符合相关行业法规和标准,避免违规操作;

三是风险预估与应对策略,对各种可能出现的风险进行评估,并进行对应的策略。

2、《落实算法安全主体责任基本情况》

这个文档的填写难度较高,需要明确3个重点

(1)如何做好信息安全监测

(2)如何做好内容安全监测

(3)如何做好用户个人信息安全监测

做好以上几点需要产品、研发算法、法务团队的密切配合,材料需要详细提供企业建立的算法安全相关组织和制度,但大多数公司还没有建立算法制度,网上的资料还少,其中制度又分为了自评估制度、监测制度、应急处置制度和违法违规处置等。

3、《xxx大模型算法”拟公示内容》

这部分信息主要在网页端的信息填报环节,这部分包括算法名称、算法基本原理、算法运行机制、算法应用场景、算法目的意图、算法公示情况(选填),一般一页word即可

4、申请公司营业执照副本彩色扫描件;

5、法定代表人身份证彩色扫描件+手机号+电子邮箱;

6、算法安全负责人身份证彩色扫描件+手机号+电子邮箱+工作证明(如工作证扫描件);

7、联系人身份证彩色扫描件+手机号+电子邮箱;法人、安全责任人、联系人 分别三人担任;

8、算法机构设置(主要工作职责、任职要求、配备的规模、保障措施)。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议