La distillation, c'est le fait d'entraîner un petit modèle à imiter un grand, pour obtenir une version plus légère, plus rapide et moins coûteuse, qui garde l'essentiel des capacités. Le grand modèle sert de « professeur », le petit d'« élève ». C'est ainsi qu'on obtient des modèles compacts capables de tourner sur du matériel modeste sans s'effondrer en qualité.
Exemple — Un modèle léger sur ton téléphone peut être la version distillée d'un modèle bien plus gros.