Unidad | Cantidad | Descripción | Ventaj./Desven |
Palabras | 300000 | Son las unidades fundamentales de las frases. | Proporcionan una gran calidad. Son faciles de concatenar. Requieren mucha memoria para almcenarlas. La naturalidad e inteligibilidad baja al concatenar palabras. |
Sílabas | 20000 | Consta de un núcleo (vocal o diptongo) más algunas consonantes vecinas. | Los límites entre sílabas son imprecisos. |
Semisilabas | 4500 | Se obtiene dividiendo la sílaba por la mitad, con el corte en el centro de la vocal (en esta posición los efectos de la coarticulación son mínimos). | Conserva la transición fonemas adyacentes. Las reglas de suavidad son simples. |
Difonemas | 1500 | Se obtiene dividiendo la señal en fragmentos de tamaño un fonema. El corte se realiza en el centro de cada fonema. | Conserva la transición entre fonemas adyacentes. Las reglas de suavizado son sencillas. |
Alófonos | 250 | Se forman agrupando fonemas. | El algoritmo de interpolación es más sencillo que usando fonemas. |
Fonemas | 37 | Es la unidad fundamental en fonética. | Requiere muy poca memoria para almacenarlos. Las reglas de suavizado son complicadas para modelar la coarticulación. |
Para facilitar las tareas e independizarlas del criterio subjetivo de la persona encargada de segmentar la base, se han desarrollado, paralelamente a las técnicas de síntesis de voz, herramientas de análisis y segmentación. Por ejemplo, una posibilidad sencilla para detectar transiciones entre fonemas sería la comparación entre la parametrización espectral de una trama y la siguiente. Si ha habido cambios será indicativo de la presencia de una transición, mientras que, si ambas tramas pertenecen a un mismo fonema, habrá poca variación.