返回文章列表
AI

怎么从零开始学习大语言模型?

一一
2025-11-07
4小时前
怎么从零开始学习大语言模型?

今天这篇文章旨在探讨如何从零开始学习大语言模型(LLMs)。这里所说的“学习”,并非指如何使用API接口,而是要真正理解其底层运作机制——从核心数学原理到架构细节,再到模型训练后的优化与对齐全过程。

我们的学习计划分为五个阶段。

完成所有阶段的学习后,你将清晰掌握从零构建小型GPT风格模型原型的方法,并且了解模型规模化扩展所需的关键要素。

第一阶段:基础数学

假设你已掌握非常基础的数学知识,并且会使用Python编程,具备这些基础就足够开启学习了。

因此,我们首先要做的是学习足够的微积分、线性代数和概率论知识,以便能够理解后续涉及的各类计算过程。

如果你是完全的新手,建议先从建立直观认知入手。可以观看3Blue1Brown频道的《线性代数的本质》(Essence of Linear Algebra)和《微积分的本质》(Essence of Calculus)系列视频。这些视频以可视化、概念化的方式呈现内容,能帮助你真正理解数学知识在底层的实际作用。

建立起一定的直观认知后,就可以进入更系统的学习阶段:

  • • Coursera平台上由DeepLearning.AI开设的“机器学习数学基础”专项课程(Math for Machine Learning specialization)对新手十分友好,它会以循序渐进的节奏涵盖所有核心主题——微积分、线性代数和概率论。
  • • 若你希望进一步提升手工计算能力,可以在完成DeepLearning.AI的专项课程后,继续学习伦敦帝国理工学院(Imperial College London)“机器学习数学”专项课程中的前两门。这些课程会提供大量导数计算和矩阵运算的练习,确保你能完全跟上后续课程的学习进度。

顺便提一句——Coursera目前正在推出一项重磅优惠活动:Coursera Plus年度订阅服务可享受6折优惠,订阅后你能免费学习平台上的所有课程并获取证书,无需额外付费。此外,订阅还包含来自谷歌(Google)、国际商业机器公司(IBM)、微软(Microsoft)等合作方的超过10,000门课程,所有资源都包含在同一订阅服务中。该优惠活动仅在未来几周内有效,强烈建议你去了解一下!

第二阶段:神经网络

掌握了必备的数学知识后,我们就可以进入深度学习基础的学习了。

和往常一样,我建议先通过可视化内容建立直观认知。我强烈推荐3Blue1Brown频道“神经网络”播放列表中的前四个视频,首先从《什么是神经网络?| 深度学习第一章》(But what is a neural network? | Deep learning chapter 1)开始观看。

如果你希望在学习更高级的课程前,先对内容有一个通俗易懂的概览,StatQuest频道的深度学习基础播放列表也是不错的选择。具体来说,你可以观看其“神经网络核心思想”(The Essential Main Ideas of Neural Networks)播放列表中的第1至18个视频。

你可以选择一次性看完整个播放列表,也可以在观看我接下来推荐的更正式课程前,先查看StatQuest频道中对应主题的讲解视频。这种学习方式对我非常有效,因为在进入数学和代码密集型的课程前,我已经掌握了核心概念。

谈到代码实现,此时不得不推荐安德烈·卡帕西(Andrej Karpathy)的经典视频。这些视频清晰、逐步地讲解了反向传播(backpropagation)和神经网络训练的原理,具体可参考《神经网络与反向传播详解:构建micrograd》(The spelled-out intro to neural networks and backpropagation: building micrograd)。

到这里,你已经掌握了足够的深度学习基础知识,能够开始理解作为大语言模型(LLMs)核心的Transformer架构了!

但如果有人希望先建立更扎实的基础,我推荐学习DeepLearning.AI的“深度学习”专项课程,以及伊恩·古德费洛(Ian Goodfellow)等人编写的《深度学习》(Deep Learning)一书。Coursera上的这门专项课程之所以成为经典,是有其原因的,而且它会不断更新以保持内容的时效性。

第三阶段:Transformer架构与预训练

完成以上学习后,你就具备了理解支撑现代大语言模型(LLMs)的核心架构——Transformer架构所需的基础。

我相信你肯定不会感到意外,我还是会建议从高层次的可视化介绍开始学习。;-)

以下是一些优质资源:

  • • 3Blue1Brown“神经网络”播放列表中第5个及之后的视频,以及StatQuest“神经网络”播放列表中的第19至22个视频。
  • • 如果你更喜欢阅读,也可以查看博客《图解Transformer》(Illustrated Transformer)。

更深入一层的学习,可以参考安德烈·卡帕西(Andrej Karpathy)的经典教程。他详细讲解了如何从零构建GPT模型以及GPT分词器(Tokenizer),具体课程包括:

  • • 《从零开始编写代码:详解GPT构建过程》(Let’s build GPT: from scratch, in code, spelled out)
  • • 《构建GPT分词器》(Let’s build the GPT Tokenizer)

此外,阅读Transformer的原始论文《Attention Is All You Need》也非常有价值。

如果你在理解论文时遇到困难,强烈推荐观看扬尼克·基尔彻(Yannic Kilcher)讲解该论文的视频。

完成这些学习后,你就能理解“预训练”(pre-training)的概念了——预训练指的是在大规模语料库上训练模型,使其具备预测下一个token的能力。但现代大语言模型还需要经历更多步骤,接下来让我们继续学习。

第四阶段:微调(Fine-tuning)

经过预训练的模型虽然理解语言的运作方式,但尚未掌握在特定领域发挥实际作用的能力,而微调正是解决这一问题的关键环节。

微调的过程是:以预训练的基础模型为起点,在特定领域的数据集上进一步训练模型,使其能够在法律、医疗、金融等特定领域,或其他任意专业领域中表现出色。

要理解微调,我建议从DeepLearning.AI开设的短期课程《大语言模型微调》(Finetuning Large Language Models)开始学习。

若想更深入地钻研,可以阅读《使用Transformer进行自然语言处理》(Natural Language Processing with Transformers)一书,以及2024年8月发布的技术综述《大语言模型微调完全指南:从基础到突破》(The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs)。

与该领域的所有技术一样,微调技术也在不断发展。值得花时间了解一些更新的、参数效率更高的微调方法,例如LoRA(低秩适应,Low-Rank Adaptation)和QLoRA(量化低秩适应,Quantized Low-Rank Adaptation)。

第五阶段:对齐(Alignment)

至此,你已经拥有了一个经过微调、知道该“说什么”的模型。但如何让模型以“有用”(helpful)且“无害”(harmless)的方式输出内容呢?这就需要“基于人类反馈的强化学习”(Reinforcement Learning with Human Feedback,简称RLHF)技术——它能训练模型生成人类真正偏好的响应。

以下是学习RLHF的推荐路径:

  1. 1. 首先,若StatQuest频道有相关主题的视频,那它一定是我的首选推荐。所以,我们从这个概览视频开始:《基于人类反馈的强化学习(RLHF):清晰解读!》(Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!)。
  2. 2. HuggingFace平台也有一个不错的入门视频:《从零基础到ChatGPT:基于人类反馈的强化学习》(Reinforcement Learning from Human Feedback: From Zero to chatGPT)。
  3. 3. 你还应该阅读OpenAI发布的《深度强化学习入门》(Spinning Up in Deep RL)。这是一本非常适合新手的强化学习通用入门资料,虽然不专门针对RLHF,但它能为你理解对齐过程中使用的奖励建模(reward modeling)奠定扎实基础。
  4. 4. 最后,如果你想进行全面深入的学习,可以阅读OpenAI的InstructGPT论文。该论文详细阐述了完整的RLHF流程,包括有监督微调(Supervised Fine-Tuning,简称SFT)、奖励建模和优化。建议搭配奥马尔·贾米尔(Umar Jamil)的视频讲解一起学习,该视频包含所有推导过程和代码,能帮助你建立扎实的知识体系。

最近,“直接偏好优化”(Direct Preference Optimization,简称DPO)作为一种比RLHF更稳定的替代方法,正受到越来越多的关注。


本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴
🚀Cloudflare
Fastly
🌐Akamai
☁️AWS
🔷Azure
🟢Uptime
📊Datadog
🔍Pingdom

本站所有广告均是第三方投放,详情请查询本站用户协议