I. Introducción

 

En los últimos tiempos se ha producido una avalancha de artículos en los medios de comunicación, reivindicando algo tan simple como que la voz es y seguirá siendo la interfaz más natural de comunicación para las personas. Esta afirmación que, por una parte, no parece aportar ningún concepto novedoso, por otra, tiene una importancia fundamental en las estrategias y planteamientos que en el mundo de la telefonía debe realizar cualquiera que quiera ofrecer servicios que logren una aceptación mayoritaria por parte de sus clientes.

Entre las capacidades que hacen posible disponer de esta nueva generación de servicios, se pueden destacar las siguientes:

La conversión texto-voz avanzada

A los conversores texto-voz multiidioma (español, catalán, gallego, euskera, portugués y variantes dialectales del español de Latinoamérica) de alta calidad que ya hay en el mercado, se le han incorporado una serie de características que permiten su integración en el mundo de la información textual manejada en la actualidad: corrección automática de texto del correo electrónico, deletreo y lectura adaptada de términos de Internet, detección automática del idioma de un texto y lectura de documentos ofimáticos (word, excel, powerpoint, etc.).

El reconocimiento de voz natural

Sin duda, el avance más significativo de la tecnología del habla es el reconocedor de lenguaje natural; esto significa que un cliente puede hablar con la máquina de forma continua, como lo haría con otra persona, y la máquina es capaz de reconocer y entender lo que dice. Esta característica permite eliminar la rigidez tradicional en los diálogos hombre/máquina, abriendo un abanico prácticamente ilimitado de aplicaciones, en las que hasta la fecha no se podía pensar que se pudieran ofrecer con un sistema automático (servicios de información, manipulación de agendas, dictado de mensajes, etc.). Junto a este gran avance, los reconocedores incorporan otra serie de características que les permiten un funcionamiento adecuado en multitud de aplicaciones:

• Técnicas de reducción de efecto de ruidos: fundamental para su correcto funcionamiento en ambientes ruidosos, típicos en la telefonía doméstica y pública.

• Seguimiento del locutor. Técnica que permite al reconocedor centrarse en el locutor que le está intentando decir algo, aislándole del resto de sonidos del entorno.

• Soporte de multicodificación. Cualquiera que sea el tipo de teléfono y la red utilizada por el cliente, el reconocedor está preparado para soportar un diálogo correcto.

La verificación del locutor

El sistema es capaz de decidir con total certeza si una persona es quien dice ser, con solamente escuchar un login o un password o, en general, una palabra pronunciada por dicha persona. Esta característica permitirá incorporar la voz a negocios como el comercio electrónico, a los sistemas de seguridad y a muchos otros campos, que se verán beneficiados por la facilidad y naturalidad del uso de la voz, para que sean usados masivamente por el gran público.