Etnògraf digital

A la intel·ligència li cal cultura

03 d'Octubre de 2024

Act. 03 d'Octubre de 2024

La IA és per tot arreu. La IA generativa també. Però, realment entén el món? Sap què genera? Per a què? I sobretot, per a qui?

Malgrat els avenços dels últims anys, especialment en l'aprenentatge automàtic i la generació de contingut, la IA no té cap comprensió del context humà. La IA processa dades, reconeix patrons i genera resultats basats en algoritmes matemàtics, però no entén el significat darrere de les paraules ni les implicacions culturals dels seus resultats.

"La IA no té cap comprensió del context humà"

Quan una IA genera un text, una imatge o una peça musical, ho fa sense una veritable comprensió del contingut o de l'audiència a la qual s'adreça. Això planteja reptes significatius en termes de rellevància cultural i adequació del missatge. Si la IA no entén el món tal com el perceben els éssers humans, com podem assegurar-nos que el que genera és adequat i respectuós amb les diferents cultures i contextos socials?

IA de dalt cap baix i de baix cap dalt

Per mirar d’entendre-ho hem de seguir el sentit del coneixement. La IA de dalt cap baix es basa en la codificació del coneixement dels experts perquè ens ajudi en la presa de decisions. Un exemple d'aplicació en són els sistemes experts, que utilitzen regles predefinides per resoldre problemes específics. Aquesta aproximació té els avantatges del control i la previsibilitat dels resultats. També és fiable en contextos específics on el coneixement és estàtic i ben definit, el sistema és transparent i els errors es poden identificar i corregir més fàcilment.

No obstant això, la IA de dalt cap baix té limitacions; el coneixement és un fotograma del moment del bolcat dels cervells dels experts i això fa que no s’adaptin a situacions imprevistes. A més, depèn molt dels experts, ja que requereix una quantitat significativa de temps i recursos per codificar el seu coneixement i sabem que s’equivoquen. D’altra banda, amb el temps, el que era coneixement gravat en pedra deixa de ser-ho.

La IA de baix cap dalt va en sentit contrari: requereix grans quantitats de dades, ja sigui d’aparells o del nostre comportament, de les que n'extreu coneixement de manera automatitzada. Això és el que anomenem aprenentatge automàtic. Un exemple són les xarxes neuronals i els sistemes d'IA generativa. Aquesta aproximació té l'avantatge de l'aprenentatge i l'adaptabilitat; pot aprendre de noves dades i millorar amb el temps. També té capacitat per tractar amb dades complexes; pot gestionar grans volums de dades no estructurades, i és versàtil, aplicable en una àmplia varietat de camps i problemes.

"Amb el temps, el que era coneixement gravat en pedra deixa de ser-ho"

El seu gran inconvenient és l'opacitat —sovint es comporta com una “capsa negra”— que dificulta la interpretació dels resultats. També pot reproduir o amplificar els biaixos presents en les dades d'entrenament, i necessita grans quantitats de dades per funcionar eficaçment.

Generació de text, imatge i so

L'onada actual d'IA està dominada per sistemes basats en aprenentatge automàtic i IA generativa. Això inclou generadors de text com ChatGPT, Claude, Gemini de Google o Perplexity AI; generadors d'imatge com DALL·E 3, Midjourney o Stable Diffusion; i generadors de música com Udio, Suno i Stable Audio. Aquests sistemes estan entrenats amb grans corpus de text (tot el d’internet), grans corpus d'imatges (totes les d’internet); i grans corpus de música (tots els enregistraments de la història).

Biaixos en les dades

Però aquestes dades tenen tants defectes com les societats que les han generades. Alguns dels biaixos més evidents són els de gènere, els de classe, els biaixos ètnics, i els biaixos d'homofòbia i discriminació cap a la comunitat LGBTQ+. Malauradament, les societats som així, i aquests biaixos els transmetem a les dades que generem.

Altres biaixos menys evidents inclouen la predominança de l'anglès, l’idioma del corpus textual principal; les referències culturals anglocèntriques; i la mala representació d'algunes tradicions culturals; cultures que estan infrarepresentades o directament absents en les dades d’entrenament.

La IA "parla" català?

Malgrat aquests biaixos, aquestes IA poden generar text en català i fins i tot en altres llengües minoritàries que no tenen un corpus en línia tan sòlid com el català. Però això té trampa: els models de llenguatge grans (LLM) parlen català, però no parlen en català. La diferència és subtil però determinant. No és el mateix saber parlar una llengua que saber parlar en una llengua.

"No és el mateix saber parlar una llengua que saber parlar en una llengua"

La primera és una competència lingüística. Per exemple, podríem parlar en francès o italià traduint paraula per paraula literalment i ens faríem entendre. La segona és una competència cultural; per parlar bé en una llengua determinada, cal entendre’n el context, la cultura i la societat que la genera. Aquesta distinció és la diferència que hi ha entre traduir i localitzar.

Traduir significa portar un text d'un idioma a un altre. Del llatí "traducere", que significa "portar a través". Localitzar, en canvi, implica adaptar un text a una cultura receptora. La primera accepció de “localitzar" és: “Adaptar una cosa a un lloc determinat, fer local.”

Traducció vs. localització

Per il·lustrar aquesta diferència, només cal escoltar “Coses de l’idioma” de la Trinca. En aquesta cançó, expressions com "n'hi ha per llogar cadires" es tradueixen literalment al castellà". I ens fa molta gràcia perquè en castellà no s’entén. No se m’acut ara l’equivalent en castellà, però la traducció de Google és per llogar-hi cadires.

I si falla Google, en general no és culpa seva sinó que ve de fàbrica, és a dir de la IA; el problema són els referents, el conjunt de dades, que entre els biaixos que té hi ha el de l’anglocentrisme.

Un Messi gegant o el gegant del Messi

Un cas semblant el podem veure amb Midjourney, el popular generador d'imatges basat en IA. Si us demano que dibuixeu un "Gegant del Messi", si sou d'aquesta banda de la Mediterrània, entendreu que estic demanant un gegant de festa major amb la cara de Lionel Messi. El Dani Julià li va demanar al maig del 2023 a Midjourney que generés un "Gegant de Messi". El resultat va ser una mena de persona enorme més semblant a un llenyataire de Minnesota que als nostres gegants. Això és perquè Midjourney va utilitzar com a referent els milions d’imatges que té d’en Paul Bunyan, un llenyataire gegant del folklore nord-americà de Minessota. Podeu comprovar la semblança fent una cerca a Google Images per Paul Bunyan.

Fet amb un apunt al midjourney pic.twitter.com/DGX3VhHrgi
— danieljulia.tez (@daniel_julia) May 4, 2023

La importància dels referents culturals en el text

El cas dels gegants és molt visual i, per tant, evident. Però què passa amb el text? Què passa amb els referents de la cultura receptora que estan absents en les dades d'entrenament? El problema és que els textos generats per la IA poden estar escrits en un català perfecte, però mancats de referents culturals catalans. Això pot portar-nos a acceptar-los de manera acrítica, només perquè estan ben escrits. A més, aquests sistemes sovint antropomorfitzen les seves capacitats, afirmant que "pensen", "analitzen" o "escriuen" fet que ens genera una buscada sensació d’intel·ligència. En realitat, no fan res de tot això; l'únic que fan és computar.

L’acceptació acrítica de la IA

De la mateixa manera que correm el risc de perpetuar i fins i tot amplificar biaixos amb l'acceptació acrítica del que la IA ens genera, també correm el risc d'omplir el món amb un monocultiu cultural que se'ns mostri en la nostra llengua, però que margini tots els referents culturals propis. S'hi afegeix el fet que qui controla aquests grans models de llenguatge són cinc empreses, literalment cinc, que es poden comptar amb els dits d'una mà. Una acceptació acrítica equivaldria a donar la clau de la propagació cultural a cinc empreses que no ho tenen precisament entre els seus objectius fundacionals.

Una oportunitat si ho fem bé

D'altra banda, si gestionem bé aquesta tecnologia, podria ser un bé de Déu. El nombre de parlants d'una llengua o membres d'una cultura de destí deixaria de ser part de l’equació dels costos de producció de continguts. Produir continguts en català podria tenir la mateixa relació de cost/benefici que en anglès.

Imaginem una prèvia d'un partit Barça-Bayern. Tots els periodistes esportius alemanys podrien accedir a continguts d'última hora del Barça, localitzats en alemany però escrits i pensats en català. Aquesta localització de continguts a la cultura alemanya podria incloure transmissions, comentaris i rodes de premsa fins i tot en directe.

Un altre exemple podria ser el d’un mitjà de Mallorca, posem per cas Sa Plaça, que pel mateix cost de fer el diari en català, podria tenir-lo simultàniament en castellà, alemany, anglès i rus. Un turista britànic que volgués informar-se de l'actualitat de Mallorca no hauria d'anar a una font escrita i pensada en anglès, sinó que podria accedir a continguts pensats i creats en català localitzats a la seva cultura.

Més enllà, més ençà

M'han sortit molts exemples mallorquí-alemanys perquè fa un parell de dies vam estar parlant a Palma precisament d'això amb companys de mitjans balears, sobre la IA a les redaccions i com pot ajudar-los en el seu dia a dia. Va ser en una jornada organitzada per l'AMIC, l'Associació de Mitjans d'Informació i Comunicació.

Per cert, els mitjans de les illes estan molt preocupats perquè els sistemes de transcripció i generació de veu en català basats en IA no acaben de funcionar prou bé en mallorquí, menorquí i eivissenc. Encara menys quan es barreja el registre formal (sense salat, entre altres) i l’informal.

Li cal encara molta més cultura a la intel·ligència. A l’artificial, també.