预训练流程
按空格逐步展示流程节点
语料收集与预处理
互联网文本 · 清洗去重
分词编码
token → ID
模型训练
next token
自回归生成
逐步生成