知识蒸馏让大模型能力迁移到小模型:

核心思想

大模型(教师)指导小模型(学生)学习。

蒸馏方法

  • 软标签蒸馏:利用教师模型的概率分布
  • 特征蒸馏:中间层特征对齐
  • 对比蒸馏:对比学习信号传递

应用场景

  1. 模型压缩与加速
  2. 跨架构迁移
  3. 边缘设备部署

典型案例

DistilBERT、TinyBERT等。