En la actualidad una de las técnicas de más aceptación es la utilización de los modelos ocultos de Markov, usados también en reconocimiento del habla y, en menor grado en reconocimiento del locutor. En la creación de la base de datos para las aplicaciones de conversión texto-voz se conoce el contenido fonético de los registros acústicos, por lo que únicamente hay que hacer coincidir las distintas unidades con la señal grabada.
Una vez se obtienen las unidades segmentadas, se debe proceder a la preparación de las unidades, que en el caso más simple puede consistir en una codificación de la base. Para la síntesis PSOLA se debe marcar síncronamente con el periodo fundamental en los segmentos sonoros, y más o menos uniformemente en los sordos.
Lógicamente, la creación de unidades a partir de un nuevo locutor será tanto más sencilla cuanto más automatizado esté el proceso. Sin embargo, no todos los hablantes de un idioma son buenos locutores para un convertidor texto-voz, y existen voces que se adaptan mejor a otras a la síntesis de voz.
Por último, el siguiente ejemplo intenta aclarar la división en unidades.