Corresponde al siguiente bloque:
Función:
Este módulo genera la señal acústica a partir de los parámetros extraídos en los bloques anteriores, los cuales se han encargado de realizar una transformación del texto escrito a una representación simbólica de la pronunciación, primero fonética y después prosódica. Estos símbolos determinan cómo generará la secuencia de segmentos el sintetizador. Tradicionalmente los métodos de síntesis se han clasificado en síntesis por regla y síntesis por concatenación. En realidad, ambos tipos utilizan de algún modo la concatenación de unidades, ya que necesitan unas unidades mínimas del lenguaje, generalmente fonemas, para confeccionar el mensaje. Además la diversidad de métodos actuales de síntesis hace que la división entre estos dos tipos no sea ya tan clara y sea más fácil verlo como un abanico de tipos, desde la síntesis absolutamente artificial por reglas hasta la síntesis por concatenación directa de segmentos.
Para la generación por concatenación de unidades, éstas suelen estar almacenadas en forma codificada. Lógicamente los paramétricos ofrecen un mayor control sobre la señal generada, puesto que resulta más sencillo variar algunas características de la voz generada. Los modelos de formantes y articulatorio se han asociado tradicionalmente a la síntesis por regla, mientras que los otros se han clasificado normalmente como síntesis por concatenación. No obstante, todos los sistemas utilizan en mayor o menor grado algún tipo de regla. Dependiendo del grado de abstracción del modelo, tanto en el tipo de parámetros como en la manera de representar la evolución de los mismos, se podrá decir que un sistema está basado en reglas o en voz natural.
La función del procesado segmental es asegurar la continuidad de los parámetros de síntesis, de manera que la entonación, la intensidad y el timbre de los sonidos no se rompa al pasar de una unidad a otra. Esto también significa la generación de la coarticulación cuando no esté incluida en las propias unidades de síntesis, como sucede con los difonemas. Generalmente, la continuidad en la frecuencia fundamental viene determinada por el propio patrón entonativo. En cambio, para la energía y el espectro es necesario aplicar algún tipo de procesado de interpolación de los parámetros.
Una de las técnicas de procesado segmental que más aceptación tiene actualmente es el PSOLA (Pitch-Synchronous Over-Lap and Add), principalmente en su variante en el dominio temporal. Se trata de una técnica de manipulación de la señal particularmente útil en la síntesis por concatenación de segmentos ya que permite modificar arbitrariamente la frecuencia fundamental y la duración de los segmentos sin necesidad de parametrizar la señal. Esta técnica ha permitido dar flexibilidad a los sistemas de concatenación de formas de onda, donde el principal inconveniente era precisamente la modificación de la prosodia. Por tanto, no es de extrañar que muchos de los convertidores texto-voz actuales utilicen de alguna manera el algoritmo TD-PSOLA puesto que es el que da, en general, mejor calidad. En la figura se esquematiza el proceso de modificación de frecuencia fundamental para un segmento de señal.
Muchos sistemas actualmente no se limitan a un solo tipo de unidad (fonemas, difonemas, semisílabas, ...) sino que combinan diferentes tamaños para preservar mejor la coarticulación de algunos grupos de sonidos. En todos los casos, se intenta llegar a un compromiso entre la optimización de la calidad segmental y el incremneto del número de unidades de la base.