La tokenisation, c'est l'étape où un modèle découpe ton texte en tokens avant de le traiter. Le texte brut est transformé en morceaux que le modèle sait manipuler, puis reconverti en mots à la sortie. C'est invisible pour toi, mais ça explique pourquoi un modèle compte en tokens, pas en mots, et pourquoi certaines langues coûtent plus cher que d'autres.
Exemple — La tokenisation découpe « inattendu » en plusieurs tokens, alors que « chat » n'en fait qu'un.