Análisis y síntesis de la voz mediante ordenador

Inicio

Conceptos básicos

La voz
Filtro

Breve historia

Historia del reconocimento
Historia de la síntesis

Procesamiento digital

Introducción al procesamiento
Análisis de voz (Reconocimiento)
Síntesis de la voz

Aplicaciones

Aplicaciones
El futuro del reconocimiento

Síntesis de voz. Conversión texto-voz
Segundo bloque: Generación de prosodia

Corresponde al siguiente bloque:

Imagen obtenida del libro 'Tratamiento digital de voz e imagen' 'Marcos Faúndez Zanuy' Ed: marcombo

Función:

Se divide en dos subbloques. El primero considera aspectos suprasegmentales, es decir, trata la entonación de la frase en su conjunto. El segundo controla la micromelodía, o fenómenos locales de coarticulación, acentuación, etc.
Tradicionalmente la prosodia se ha generado mediante sistemas basados en reglas, obtenidas a partir de estudios lingüísticos y retocadas empíricamente hasta conseguir un habla sintética aceptable. Actualmente se empiezan a utilizar métodos estadísticos sobre bases de datos para generar automáticamente modelos prosódicos.

En la generación de modelos prosódicos se pueden abordar tres problemas básicos: el ritmo, la entonación y la intensidad. El último factor raramente se tiene en cuenta ya que no afecta tanto la naturalidad como los otros dos. La entonación es básicamente la evolución de la frecuencia fundamental, mientras que el ritmo incluye tanto las duraciones de cada uno de los segmentos de síntesis como la localización y duración de las pausas.

Las variables típicamente utilizadas en el análisis de la prosodia son, por ejemplo, el tipo de oración, la duración en tiempo, el número de sílabas del grupo entonativo, la distancia a la última sílaba acentuada, la categoría gramatical de la palabra, etc. Las variables útiles son, en principio, diferentes para cada modelo (entonación, duración o pausas) y, en general, pueden ser numéricas o simbólicas.

Los patrones entonativos tienen carácter suprasegmental, es decir, que afectan globalmente a todo un grupo entonativo en lugar de hacerlo particularmente sobre cada unidad. Básicamente la generación de los patrones consiste en la determinación de la posición y valor de una serie de codos de un modelo lineal a tramos. En general, la entonación española consta de una primera rama ascendente que comprende desde el primer sonido hasta el primer acento tónico (rama intensiva). A partir de aquí se mantiene subiendo y bajando, hasta la parte del último acento hasta el final (rama distensiva). La elevación de esta última parte indica que la frase no está completa (función de continuidad). Su descenso indica la finalización de la frase (función conclusiva), y la combinación de ambas (ascendente-descendente) que la frase es interrogativa.

Aunque para la generación de los patrones entonativos se utilizan casi siempre sistemas basados en reglas, para la determinación de la duración de las unidades de síntesis se han propuesto muchos sistemas. Son muchos los factores que influyen en la duración de los fonemas, entre los cuales el más importante es, sin duda, el contexto fonético en el que se encuentra cada fonema. En cuanto a los métodos estadísticos más utilizados para determinar la duración segmental son los CART y la regresión lineal multivariable.

01 02 03 04 05 06 07 08 09