I. Introducción
En los últimos tiempos se ha producido
una avalancha de artículos en los medios de comunicación, reivindicando algo
tan simple como que la voz es y seguirá
siendo la interfaz más natural de comunicación para las personas. Esta
afirmación que, por una parte, no parece aportar ningún concepto novedoso, por
otra, tiene una importancia fundamental en las estrategias y planteamientos
que en el mundo de la telefonía debe realizar cualquiera que quiera ofrecer
servicios que logren una aceptación
mayoritaria por parte de sus clientes.
Entre las capacidades que hacen posible disponer de esta nueva
generación de servicios, se pueden destacar las siguientes:
• La conversión texto-voz avanzada
A los conversores texto-voz multiidioma (español, catalán, gallego, euskera,
portugués y variantes dialectales del español de Latinoamérica) de alta calidad
que ya hay en el mercado, se le han incorporado una serie de características
que permiten su integración en el mundo de la información textual manejada en
la actualidad: corrección automática de texto del correo electrónico, deletreo
y lectura adaptada de términos de Internet, detección automática del idioma
de un texto y lectura de documentos ofimáticos (word, excel, powerpoint,
etc.).
• El reconocimiento de voz natural
Sin duda, el avance más significativo
de la tecnología del habla es el reconocedor de lenguaje natural; esto
significa que un cliente puede hablar con la máquina de forma continua, como
lo haría con otra persona, y la máquina es capaz de reconocer y entender lo
que dice. Esta característica permite eliminar la rigidez tradicional en los
diálogos hombre/máquina, abriendo un abanico prácticamente ilimitado de aplicaciones,
en las que hasta la fecha no se podía pensar que se pudieran ofrecer con un
sistema automático (servicios de información, manipulación de agendas, dictado
de mensajes, etc.). Junto a este gran avance, los reconocedores incorporan otra
serie de características que les permiten un funcionamiento adecuado en multitud
de aplicaciones:
• Técnicas de reducción de efecto
de ruidos: fundamental para su correcto funcionamiento en ambientes ruidosos, típicos
en la telefonía doméstica y pública.
• Seguimiento del locutor. Técnica que permite
al reconocedor centrarse en el locutor que le está intentando decir algo, aislándole
del resto de sonidos del entorno.
• Soporte de multicodificación. Cualquiera que
sea el tipo de teléfono y la red utilizada por el cliente, el reconocedor está
preparado para soportar un diálogo correcto.
• La verificación del locutor
El sistema es capaz de decidir con total certeza si una persona es quien dice ser, con solamente escuchar un login o un password o, en general, una palabra pronunciada por dicha persona. Esta característica permitirá incorporar la voz a negocios como el comercio electrónico, a los sistemas de seguridad y a muchos otros campos, que se verán beneficiados por la facilidad y naturalidad del uso de la voz, para que sean usados masivamente por el gran público.