La quantification, c'est la réduction de la précision des nombres d'un modèle pour le rendre plus petit et plus rapide. On remplace des valeurs très précises par des approximations plus légères. Résultat : le modèle tient sur moins de mémoire et tourne sur du matériel modeste, avec une perte de qualité souvent minime. C'est une technique clé pour faire tourner l'IA en local.
Exemple — Quantifier un modèle permet de le faire tourner sur un ordinateur portable au lieu d'un gros serveur.