Le TTS transforme du texte en voix synthétique ; le STT fait l'inverse, transcrivant la parole en texte. Ensemble, ils relient l'écrit et l'oral. Le TTS sert à doubler une vidéo ou à lire un article à voix haute ; le STT à sous-titrer ou à dicter. Les voix générées par IA sont aujourd'hui proches du naturel, ce qui ouvre la production audio à grande échelle.
Exemple — Le STT transcrit un mémo vocal en texte, que le TTS peut ensuite relire d'une voix synthétique.