文本大模型的训练流程本质上是一个精密的数据处理与参数优化过程,其核心逻辑并不神秘。文本大模型训练流程主要包含数据准备、预训练、有监督微调(SFT)、奖励模型训练(RM)和强化学习优化(PPO)五大关键阶段,这一流程从海量无标注数据出发,经过层层递进的优化,最终使模型具备理解指令、遵循人类价值观的能力,理解了这五个步骤的先后顺序与核心目的,就掌握了通往大模型技术深处的钥匙。

第一阶段:数据准备决定模型上限的基石
数据质量直接决定了模型能力的上限,这是大模型训练中“垃圾进,垃圾出”铁律的体现。
- 海量数据收集:训练一个基座模型,通常需要万亿级别的Token数据,数据来源包括网页爬虫数据、书籍、维基百科、代码库等。
- 数据清洗与去重:原始数据充满噪声,必须进行严格的清洗。去除HTML标签、过滤广告内容、剔除低质量文本是基础操作,更重要的是去重,避免模型记忆重复内容,防止训练损失函数震荡。
- 分词处理:将清洗后的文本转化为模型可理解的数字序列,目前主流模型多采用BPE(字节对编码)算法,构建词表,词表大小通常在几万到十几万之间,直接影响模型的编码效率。
这一阶段的工作量占整个训练流程的60%以上。高质量的数据集是模型涌现能力的根本保障,任何算法的优化都无法弥补数据质量的缺陷。
第二阶段:预训练注入世界知识的“填空题”
预训练是算力消耗最大、耗时最长的阶段,目的是让模型学习语言的统计规律和世界知识。
- 自回归训练:模型通过“预测下一个词”的任务进行学习,给定上文,预测下文,这就像做无数道填空题,迫使模型理解语法、语义甚至逻辑推理。
- 分布式训练技术:由于模型参数量巨大(通常在70亿至千亿参数级别),单张显卡无法承载,必须使用模型并行、流水线并行和数据并行等技术,将训练任务拆解到数千张GPU上协同计算。
- 损失函数收敛:训练过程中监控Loss曲线,当损失值趋于平稳,且验证集上的困惑度不再下降时,预训练结束。
经过预训练的模型被称为“基座模型”,它拥有了丰富的知识,但此时它只是一个“续写者”,不懂指令,甚至会输出有害内容。一篇讲透文本大模型训练流程,没你想的复杂,关键在于理解预训练赋予了模型“通识”,而后续阶段则赋予其“技能”。
第三阶段:有监督微调(SFT)学会听懂指令

基座模型无法直接服务于用户,因为它不知道何时停止,也不知道如何回答问题,SFT阶段通过人工构建的高质量问答对,教会模型“说话”。
- 指令数据构建:人工编写或收集(问题,答案)对,数据质量要求极高,答案必须准确、逻辑清晰。
- 全量参数微调与LoRA:全量参数微调效果最好,但显存需求大;LoRA等高效微调技术通过冻结主干参数,仅训练旁路适配器,大幅降低了硬件门槛。
- 训练目标:此时的训练不再是漫无目的的预测,而是强制模型对齐输入的指令。SFT是模型从“学生”转变为“助手”的关键一步。
第四阶段:奖励模型训练(RM)建立价值观标尺
SFT之后的模型虽然能对话,但可能存在偏见、幻觉或不符合人类价值观的回答,RM阶段旨在训练一个“判卷老师”。
- 人工标注排序:给定一个Prompt,让模型生成多个回答,人工标注员对这些回答进行优劣排序(回答A > 回答B > 回答C)。
- 训练奖励模型:利用排序数据训练一个独立的打分模型(Reward Model),这个模型学会了判断哪个回答更符合人类偏好。
- 价值对齐:奖励模型不直接生成文本,它只负责打分,为后续的强化学习提供反馈信号。
第五阶段:强化学习优化(PPO)自我进化
这是大模型训练的最后一步,也是让模型“超越人类标注水平”的关键。
- 策略更新:使用SFT模型作为初始策略,生成回答,奖励模型对回答打分。
- PPO算法:利用强化学习算法(如PPO),根据奖励分数调整模型参数。高分回答的概率被提高,低分回答的概率被降低。
- KL散度约束:为了防止模型为了骗取高分而输出乱码,通常会加入KL散度约束,确保模型不会偏离SFT模型太远。
经过这五个阶段的洗礼,模型在知识储备、指令遵循、安全性和有用性上达到了平衡,最终形成了我们使用的ChatGPT或文心一言等产品。
相关问答

预训练和微调的区别是什么,能否跳过预训练?
预训练是“通识教育”,通过海量数据让模型掌握语言规律和世界知识,成本极高;微调是“职业培训”,让模型适应特定任务。绝对不能跳过预训练,如果没有预训练,模型就像一个没有知识储备的婴儿,无论怎么微调,都无法理解复杂的语义逻辑,也无法涌现出推理能力。
为什么大模型训练需要强化学习(RLHF),只用有监督微调(SFT)不够吗?
SFT依赖人工标注的“标准答案”,但人类的标注能力有上限,且难以覆盖所有场景,RLHF引入了奖励模型,让模型在探索中寻找最优解,能够超越人类标注员的水平,SFT容易导致模型“死记硬背”,而RLHF通过奖惩机制,让模型学会了什么是“正确”的价值观,有效降低了幻觉和有害输出的概率。
如果您对大模型训练的具体技术细节有更深入的见解,欢迎在评论区留言讨论。
首发原创文章,作者:世雄 - 原生数据库架构专家,如若转载,请注明出处:https://idctop.com/article/87346.html