Demasiado a menudo hablamos de como la IA nos afectará y como cambiará el futuro pero no nos damos cuenta de que está cambiando el presente. Con excepción de las relaciones personales, cualquier interacción que hacemos con otra persona es digital en algún momento y es tratada con unos y ceros. Esto, que ya sabíamos desde los años sesenta del siglo pasado, está a punto no solo de cambiar el futuro sino también el pasado.
Somos muchos los que tenemos en casa asistentes de voz, sensores, luces inteligentes, roombas o electrodomésticos conectados. Es la enésima iteración de los ordenadores: su invisibilidad o, dicho en académico, computación ambiente.
La computación ambiente, el término que usamos para describir entornos donde los aparatos conectados toman decisiones basadas en datos del entorno con la ayuda de la inteligencia artificial, a menudo de manera desatendida y sin la necesidad de intervención humana directa.
Es el que hace el termostato Nest cuando nos regula la temperatura de casa de acuerdo con el sensor de proximidad o lo que hace el cargador inteligente del coche eléctrico cuando detecta que las placas solares reciben poco sol y desconecta la carga para no chupar de la red. En este modelo de computación, los teclados, ratones y pantallas pasan a un segundo término y dejan a nuestras acciones naturales —el habla y el movimiento— como mecanismos de interacción. Y aquí juegan un papel capital los asistentes de voz.
Llenguatge digital i humà
Los asistentes de voz son quienes traducen el preciso e ininteligible lenguaje digital al lenguaje humano, impreciso pero comprensible. Cualquier persona, sea un niño o un anciano, conseguirá mucho antes interactuar con entornos digitales mediante el habla que mediante un ratón (el mapeo de los movimientos de un objeto físico en un plano horizontal con los de una flechita en una pantalla no es evidente). El juego de buscaminas y el solitario, que tantas horas nos hicieron perder en Windows, era un mecanismo para enseñar a los usuarios a utilizar el ratón).
Llegados a este punto creo que os he vendido bastante bien el pescado: los asistentes de voz son fundamentales para el futuro de la computación que es también el nuestro. Que nos entiendan, que respondan de manera coherente, que sepan llevar una conversación razonada y que nos den la información justa en la cantidad adecuada. Si le pregunto por las "siete artes liberales" no sirve de nada que me lea toda la entrada de Wikipedia (todo esto es lo que he encontrado por "siete artes liberales", quieres que te lo lea? ¡No!, ¡pesado!).
Presentación en Las Vegas
Y en esto está trabajando Amazon. El pasado viernes, en la segunda parte de su conferencia llamada re:MARS (pretencioso, también) en Las Vegas (rancio, también) presentó sus novedades más destacadas. Buena parte de la presentación la ocupó Rohit Prasat, vicepresidente de Amazon y ningún científico de Alexa, explicando las próximas novedades. Una palabra destacaba poderosamente: empatía.
Sabemos de lo cierto que estos sistemas de computación ambiente tienen poco espacio de mejora si no establecen algún tipo de vínculo afectivo con sus compañeros humanos. Cuando Alexa me habla, a pesar de tener una excelente y dulce voz humana, no es de la familia. Está en casa —hablamos cada día, nos pone música, nos lee las noticias, nos pone podcasts… es uno más— pero no es de la familia. Añadid el hecho de que no pueda hablar con ella en catalán y me vea forzado a hacerlo en inglés (la relación de mi mujer con Alexa es muy diferente dado que ella se relaciona en su lengua materna).
En próximas iteraciones, Alexa será capaz de reproducir los rasgos característicos –timbre, entonación, cadencia– de la voz de cualquier persona
Y es en este espacio de la empatía donde Amazon ha realizado los últimos adelantos por lo que se refiere a síntesis de voz. Los presentó en un vídeo corto de menos de 20 segundos donde un niño pedía a su abuela que le acabara de leer el cuento. El detalle es que la abuela ya no estaba entre los vivos. En próximas iteraciones, Alexa será capaz de reproducir los rasgos característicos –timbre, entonación, cadencia— de la voz de cualquier persona, esté viva o muerta. Será suficiente, y aquí la gran novedad, con un minuto de una grabación de audio.
Oiremos pronto a Alexa hablarnos con la voz de la abuela (ACS) o cantando "El ball de Sant Ferriol" con la voz de la Elvis. Amazon mostró la 1a, pero yo necesito a Elvis cantando el repertorio catalán.