Una vez que la señal se ha digitalizado y filtrado con el filtro preénfasis, la señal de voz se segmenta en tramas de 20 ó 30 mseg. con un desplazamiento cuyo valor típico es 10 mseg. Por ejemplo, imaginemos que tenemos la señal de la figura 1. Las rayas verticales de la gráfica se corresponden con 20 mseg de tiempo.
Para analizar este trozo de voz se procederá de la siguiente manera, la primera trama de voz es la indicada en la figura 1. La segunda trama no comenzará en el siguiente segmento indicado por el trazo vertical, sino que estará desplazado 10 mseg. respecto del comienzo de la trama anterior, y así sucesivamente. En la figura 1, la punta de la flecha y su longitud indica comienzo y duración de la trama. Es por esto que se habla de duración de las tramas y desplazamiento. Cada trama de 20 mseg. se procesa de la siguiente forma:
Después de la segmentación se aplica una ventana Hamming (*), la cual elimina los problemas causados por los cambios rápidos de la señal en los extremos de cada trama de voz. Es por eso por lo que se utiliza la segmentación con un desplazamiento para conseguir transiciones suaves entre tramas. En la práctica es deseable normalizar la ventana para que la potencia de la señal sea aproximadamente igual a la potencia de la señal antes del enventanado. La teoría de la ventana fue un tema activo de investigación en el procesado digital de señal, hay muchos tipos de ventana: rectangular, Hamming, Hanning, Blackman, Bartlett, y Kaiser. Hoy en día, en reconocimiento de voz, se utiliza exclusivamente la ventana Hamming, que es un caso específico de la Hanning.
Una ventana Hamming se define como:
Cuya representación gráfica es: