Las interfaces de voz: Han venido para quedarse

Interfaces de voz

La ciencia ficción no ha ayudado al ser humano en la generación de expectativas frente al uso de tecnología basada en Inteligencia Artificial. Numerosos son los ejemplos de ficción en los que podemos comunicarnos de manera fluida y natural con un sistema e, incluso, crear relaciones. Aunque la realidad dista aún mucho de la ficción, sí sabemos que las interfaces de voz han venido para quedarse.

En la actualidad, las interfaces son tanto un canal de comunicación con la tecnología, como sistemas que usan técnicas de “Inteligencia Artificial Conversacional”. Las interfaces de voz como canal, suponen un cambio de paradigma, más allá de las webs y las apps móviles. Acercan servicios y productos a más personas y nos permiten establecer nuevas relaciones personalizadas en cualquier modo (texto, voz, visual), momento (en el coche, en casa) y situación (mientras conduces o cocinas). 

Las más extendidas hoy viven en los asistentes virtuales de las grandes compañías como Google (Google Assistant), Apple (Siri) o Amazon (Amazon Alexa).  Algunos de estos asistentes nos permiten extender sus funcionalidades poniendo nuestros servicios a disposición de los usuarios de los asistentes. Pero también podemos crear nuestro propio asistente (como ha hecho Telefónica con Aura) o añadir voz a canales (web, móvil) ya existentes. 

¿Es “inteligente” un asistente de voz?

Otro tema es la “inteligencia” de una interfaz de voz. Si analizamos qué pasos realiza esta para entendernos y respondernos, vemos que requiere de algoritmos creados para realizar cinco tareas muy concretas y complejas: reconocer nuestra voz (ASR) y transcribirla, entender la semántica de nuestra frase (NLU), decidir qué acción realizar en base al contexto de la conversación y quienes somos (DM), generar una respuesta textual (RG) y, por último, sintetizar esta respuesta textual a una respuesta por voz (TTS). 

Interfaces de voz
@nieves_as

Las tareas son complejas y se pueden dar problemas que resulten en un “fallo”. El ejemplo más claro se da con el ruido. Imaginaos lo difícil que será para una interfaz de voz reconocer lo que decimos si hay ruido. También puede haber problemas de comprensión, pérdidas de contexto, etc. Las interfaces de voz son hoy sistemas que han de recuperarse frente a este tipo de fallos del proceso para hacer que el usuario cumpla su objetivo a través de la conversación.

¿Cómo serán mañana?

La tecnología avanza muy rápido lo que nos permite mejorar la manera de obtener algoritmos y modelos de los que usa una interfaz. Estos avances van encaminados a hacer de las interfaces algo mucho más natural e intuitivo para que el usuario no tenga que aprender a comunicarse con la interfaz. 

Por ejemplo, asistentes capaces de entender preguntas encadenadas (¿quién fue Leonardo da Vinci?.. ¿y dónde nació?), utilizar voces naturales (como la de un reportero de noticias, o la de Samuel L. Jackson), expresar emociones o efectos como susurros en la voz (e incluso entenderlos), permitirnos pedir varias cosas en una misma petición y personalizar la experiencia para cada usuario. 

Vamos hacia un futuro cercano donde Alexa encadenará diferentes aplicaciones para ayudarnos a planear una noche de cine y restaurante. Donde Google nos ayudará con las citas de restaurantes y peluquerías, haciendo de intermediario entre el local y nosotros. Donde podremos interactuar por voz en otras realidades (virtual, mixta y aumentada). Donde tendremos asistentes personales.

No se si el futuro será como lo que hemos visto en la ciencia ficción, lo que sí sé es que las interfaces de voz han venido para quedarse.

Nieves Ábalos
Últimas entradas de Nieves Ábalos (ver todo)
Compartir este post:
share post :

Deja un comentario

Facebook
Twitter
Linked In
Instagram