深入理解AI模型的训练过程:

预训练阶段

在大规模数据上学习通用表示。

微调阶段

  • SFT:监督微调
  • RLHF:人类反馈强化学习
  • LoRA:高效参数微调

全量微调 vs PEFT

全量微调效果好但成本高,PEFT高效但效果略差。

提示工程

Few-shot、Chain-of-Thought等技巧。