Inicio
Conceptos básicos
Breve historia
Procesamiento digital
Aplicaciones

Síntesis de voz. Conversión texto-voz
Segundo bloque: Generación de prosodia

Corresponde al siguiente bloque:

Función:

Se divide en dos subbloques. El primero considera aspectos suprasegmentales, es decir, trata la entonación de la frase en su conjunto. El segundo controla la micromelodía, o fenómenos locales de coarticulación, acentuación, etc.
Tradicionalmente la prosodia se ha generado mediante sistemas basados en reglas, obtenidas a partir de estudios lingüísticos y retocadas empíricamente hasta conseguir un habla sintética aceptable. Actualmente se empiezan a utilizar métodos estadísticos sobre bases de datos para generar automáticamente modelos prosódicos.

En la generación de modelos prosódicos se pueden abordar tres problemas básicos: el ritmo, la entonación y la intensidad. El último factor raramente se tiene en cuenta ya que no afecta tanto la naturalidad como los otros dos. La entonación es básicamente la evolución de la frecuencia fundamental, mientras que el ritmo incluye tanto las duraciones de cada uno de los segmentos de síntesis como la localización y duración de las pausas.

Las variables típicamente utilizadas en el análisis de la prosodia son, por ejemplo, el tipo de oración, la duración en tiempo, el número de sílabas del grupo entonativo, la distancia a la última sílaba acentuada, la categoría gramatical de la palabra, etc. Las variables útiles son, en principio, diferentes para cada modelo (entonación, duración o pausas) y, en general, pueden ser numéricas o simbólicas.

Los patrones entonativos tienen carácter suprasegmental, es decir, que afectan globalmente a todo un grupo entonativo en lugar de hacerlo particularmente sobre cada unidad. Básicamente la generación de los patrones consiste en la determinación de la posición y valor de una serie de codos de un modelo lineal a tramos. En general, la entonación española consta de una primera rama ascendente que comprende desde el primer sonido hasta el primer acento tónico (rama intensiva). A partir de aquí se mantiene subiendo y bajando, hasta la parte del último acento hasta el final (rama distensiva). La elevación de esta última parte indica que la frase no está completa (función de continuidad). Su descenso indica la finalización de la frase (función conclusiva), y la combinación de ambas (ascendente-descendente) que la frase es interrogativa.

Aunque para la generación de los patrones entonativos se utilizan casi siempre sistemas basados en reglas, para la determinación de la duración de las unidades de síntesis se han propuesto muchos sistemas. Son muchos los factores que influyen en la duración de los fonemas, entre los cuales el más importante es, sin duda, el contexto fonético en el que se encuentra cada fonema. En cuanto a los métodos estadísticos más utilizados para determinar la duración segmental son los CART y la regresión lineal multivariable.

 01  02  03  04  05  06  07  08  09
El Portal del Webmaster
El Portal del Webmaster
El Portal del Webmaster

Página de teleco



 Downloads
 Links
 Conclusiones
 Experimentos
 Bibliografía
Resumen
Contacte con nosotros
Proyecto de la asignatura de Ingeniería de ondas I .