【大模型原理与微调实战05】大模型预训练核心逻辑:自回归与掩码语言建模(GPT/BERT本质区别)
专辑专栏:大模型原理与微调实战|从Transformer底层到大模型定制落地
文章标签:#大模型 #LLM #预训练 #GPT #BERT #大模型训练原理 #自回归建模
阅读前置:本专栏聚焦纯大模型核心体系,只讲原理、训练、量化、微调,剔除无关冗余内容,循序渐进搭建完整LLM技术体系。
上节回顾:上一篇我们补齐了Transformer完整底层架构,吃透了位置编码、残差连接、层归一化三大核心辅助模块。架构是“模型骨架”,而预训练才是让模型拥有语言能力的“成长过程”。本节深入讲解大模型最核心的两种预训练范式,彻底弄懂大模型如何自学语言。
前言
很多人学大模型只会记住一个结论:GPT 是生成模型,BERT 是理解模型。
但绝大多数人不知道:为什么 GPT 只能单向、擅长生成?为什么 BERT 可以双向、擅长分类理解?两种预训练方式对后续微调有什么影响?
所有大模型的能力差异、适用场景、微调特性,根源都来自预训练任务的设计差异。
Transformer 只是统一的网络结构,真正决定模型“能力方向”的,是模型在海量无标注数据中自学的任务规则。
目前所有现代大模型,无一例外都源于两种预训练范式:
自回归语言建模 LM(GPT、LLaMA、ChatGLM)
掩码语言建模 MLM(BERT 类双向编码器)
彻底学懂这两种机制,你就能看懂所有大模型架构差异、能力边界、以及微调的底层逻辑。
一、预训练的核心本质:无监督自学
在进入两种任务之前,我们先建立核心认知:
预训练,就是让模型在海量纯文本数据上,通过“猜句子”的任务,自动学习语法、语义、逻辑、常识、语言规律的过程。