Alexa i la teva àvia

30 de Juny de 2022
Josep Maria Ganyet | VIA Empresa

Massa sovint parlem de com la IA ens afectarà i com canviarà el futur però no ens adonem que està canviant el present. Tret de les relacions personals, qualsevol interacció que fem amb una altra persona és digital en algun moment o altre i es tractada com a uns i zeros. Això, que ja sabíem des dels anys seixanta del segle passat, està a punt no només de canviar el futur sinó que també el passat. 

Molts de nosaltres tenim a casa assistents de veu, sensors, llums intel·ligents, roombes o electrodomèstics connectats. És l’enèsima iteració dels ordinadors:  la seva invisibilització o, dit en acadèmic, computació ambient.

La computació ambient, el terme que fem servir per a descriure entorns on els aparells connectats prenen decisions basades en dades de l’entorn amb l’ajut de la intel·ligència artificial, sovint de manera desatesa i sense la necessitat d’intervenció humana directa.

És el que fa el termòstat Nest quan ens regula la temperatura de casa d’acord amb el sensor de proximitat o el que fa el carregador intel·ligent del cotxe elèctric quan detecta que les plaques solars reben poc sol i desconnecta la càrrega per no xuclar de la xarxa. En aquest model de computació els teclats, ratolins i pantalles passen a un segon terme i deixen pas a les nostres accions naturals —la parla i el moviment— com a mecanismes d’interacció. I aquí hi juguen un paper cabdal els assistents de veu.

Llenguatge digital i humà

Els assistents de veu són els qui tradueixen el precís i inintel·ligible llenguatge digital al llenguatge humà, imprecís però comprensible. Qualsevol persona, sigui un infant o un ancià, aconseguirà molt abans interactuar amb entorns digitals mitjançant la parla que mitjançant un ratolí (el mapatge dels moviments d’un objecte físic en un pla horitzontal amb els d’una fletxeta en una pantalla no és evident). El joc de buscamines i el solitari, que tantes hores ens van fer perdre al Windows, era un mecanisme per ensenyar als usuaris a utilitzar el ratolí).

Arribats aquí crec que us he venut bastant bé el peix: els assistents de veu són fonamentals per al futur de la computació que és també el nostre. Que ens entenguin, que responguin de manera coherent, que sàpiguen portar una conversa raonada i que ens donin la informació justa en la quantitat adequada. Si li pregunto per les “set arts lliberals” no serveix de res que em llegeixi tota l’entrada de Viquipèdia (tot això és el que he trobat per “set arts lliberals”, vols que t’ho llegeixi? No, pesat!).

Presentació a Las Vegas

I en això està treballant Amazon. Divendres passat en la segona part de la seva conferència anomenada re:MARS (pretenciós, també) a Las Vegas (ranci, també) va presentar les seves novetats més destacades. Bona part de la presentació la va ocupar Rohit Prasat, vicepresident d’Amazon i cap científic d’Alexa, explicant-ne les properes novetats. Una paraula destacava poderosament: empatia.

Sabem del cert que aquests sistemes de computació ambient tenen poc més espai de millora si no estableixen algun tipus de vincle afectiu amb els seus companys humans. Quan l’Alexa em parla, malgrat tenir una excel·lent i dolça veu humana, no és de la família. És a casa —hi parlem cada dia, ens posa música, ens llegeix les notícies, ens posa podcasts… és un més— però no és de casa. Afegiu-hi el fet de que no pugui parlar amb ella en català i em vegi forçat a fer-ho en anglès (la relació de la meva dona amb l’Alexa és molt diferent donat que ella s’hi relaciona en la seva llengua materna).

En properes iteracions l’Alexa serà capaç de reproduir els trets característics –timbre, entonació, cadència— de la veu de qualsevol persona

I és en aquest espai de l’empatia on Amazon ha fet els darrers avenços pel que fa a síntesi de veu. Els va presentar en un vídeo curt de menys de 20 segons on un nen demanava la seva àvia que li acabés de llegir el conte. El detall és que l’àvia ja no era entre els vius. En properes iteracions l’Alexa serà capaç de reproduir els trets característics –timbre, entonació, cadència— de la veu de qualsevol persona, sigui viva o morta. N’hi haurà prou, i aquí la gran novetat, amb un minut d’un enregistrament d’àudio. 

Sentirem ben aviat l’Alexa parlar-nos amb la veu de l’àvia (ACS) o cantant “El Ball de Sant Ferriol” amb la veu de l’Elvis. Amazon va mostrar la 1a, però jo necessito l’Elvis cantant el cançoner català.

#_escrits/viaempresa/opinió