La IA está por todas partes. La IA generativa también. Pero, ¿realmente entiende el mundo? ¿Sabe qué genera? ¿Para qué? Y sobre todo, ¿para quién?
A pesar de los adelantos de los últimos años, especialmente en el aprendizaje automático y la generación de contenido, la IA no tiene ninguna comprensión del contexto humano. La IA procesa datos, reconoce patrones y genera resultados basados en algoritmos matemáticos, pero no entiende el significado detrás de las palabras ni las implicaciones culturales de sus resultados.
"La IA no tiene ninguna comprensión del contexto humano"
Cuando una IA genera un texto, una imagen o una pieza musical, lo hace sin una verdadera comprensión del contenido o de la audiencia a la cual se dirige. Esto plantea retos significativos en términos de relevancia cultural y adecuación del mensaje. Si la IA no entiende el mundo tal como lo perciben los seres humanos, ¿cómo podemos asegurarnos que lo que genera es adecuado y respetuoso con las diferentes culturas y contextos sociales?
IA de arriba a abajo y de abajo a arriba
Para intentar entenderlo tenemos que seguir el sentido del conocimiento. La IA de arriba a abajo se basa en la codificación del conocimiento de los expertos porque nos ayuda en la toma de decisiones. Un ejemplo de aplicación son los sistemas expertos, que utilizan reglas predefinidas para resolver problemas específicos. Esta aproximación tiene las ventajas del control y la previsibilidad de los resultados. También es fiable en contextos específicos donde el conocimiento es estático y muy definido, el sistema es transparente y los errores se pueden identificar y corregir más fácilmente.
Sin embargo, la IA de arriba a abajo tiene limitaciones; el conocimiento es un fotograma del momento del volcado de los cerebros de los expertos y esto hace que no se adapten a situaciones imprevistas. Además, depende mucho de los expertos, puesto que requiere una cantidad significativa de tiempo y recursos para codificar su conocimiento y sabemos que se equivocan. Por otro lado, con el tiempo, lo que era conocimiento grabado en piedra deja de serlo.
La IA de abajo a arriba va en sentido contrario: requiere grandes cantidades de datos, ya sea de aparatos o de nuestro comportamiento, de los que extrae conocimiento de manera automatizada. Esto es lo que denominamos aprendizaje automático. Un ejemplo son las redes neuronales y los sistemas de IA generativa. Esta aproximación tiene la ventaja del aprendizaje y la adaptabilidad; puede aprender de nuevos datos y mejorar con el tiempo. También tiene capacidad para tratar con datos complejos; puede gestionar grandes volúmenes de datos no estructurados, y es versátil, aplicable en una amplia variedad de campos y problemas.
"Con el tiempo, lo que era conocimiento grabado en piedra deja de serlo"
Su gran inconveniente es la opacidad —a menudo se comporta como una "caja negra"— que dificulta la interpretación de los resultados. También puede reproducir o amplificar los sesgos presentes en los datos de entrenamiento, y necesita grandes cantidades de datos para funcionar eficazmente.
Generación de texto, imagen y sonido
La oleada actual de IA está dominada por sistemas basados en aprendizaje automático e iA generativa. Esto incluye generadores de texto como ChatGPT, Claude, Gemini de Google o Perplexity AI; generadores de imagen como DALL·E 3, Midjourney o Stable Diffusion; y generadores de música como Udio, Suno y Stable Audio. Estos sistemas están entrenados con grandes corpus de texto (todo lo de internet), grandes corpus de imágenes (todas las de internet); y grandes corpus de música (todas las grabaciones de la historia).
Sesgos en los datos
Pero estos datos tienen tantos defectos como las sociedades que los han generado. Algunos de los sesgos más evidentes son los de género, los de clase, los sesgos étnicos, y los sesgos de homofobia y discriminación hacia la comunidad LGBTQ+. Desgraciadamente, las sociedades somos así, y estos sesgos los transmitimos a los datos que generamos.
Otros sesgos menos evidentes incluyen la predominancia del inglés, el idioma del corpus textual principal; las referencias culturales anglocéntricas; y la mala representación de algunas tradiciones culturales; culturas que están infrarrepresentadas o directamente ausentes en los datos de entrenamiento.
¿La IA "habla" catalán?
A pesar de estos sesgos, estas IA pueden generar texto en catalán e incluso en otras lenguas minoritarias que no tienen un corpus en línea tan sólido como el catalán. Pero esto tiene trampa: los modelos de lenguaje grandes (LLM) hablan catalán, pero no hablan en catalán. La diferencia es sutil pero determinante. No es lo mismo saber hablar una lengua que saber hablar en una lengua.
"No es lo mismo saber hablar una lengua que saber hablar en una lengua"
La primera es una competencia lingüística. Por ejemplo, podríamos hablar en francés o italiano traduciendo palabra por palabra literalmente y nos haríamos entender. La segunda es una competencia cultural; para hablar bien en una lengua determinada, hay que entender el contexto, la cultura y la sociedad que la genera. Esta distinción es la diferencia que hay entre traducir y localizar.
Traducir significa llevar un texto de un idioma a otro. Del latín "traducere", que significa "llevar a través". Localizar, en cambio, implica adaptar un texto a una cultura receptora. La primera acepción de "localizar" es: "Adaptar una cosa a un lugar determinado, hacer local."
Traducción vs. localización
Para ilustrar esta diferencia, solo hay que escuchar "Cosas del idioma" de la Trinca. En esta canción, expresiones como "n'hi ha per llogar cadires" se traducen literalmente al castellano". Y nos hace mucha gracia porque en castellano no se entiende. No se me ocurre ahora el equivalente en castellano, pero la traducción de Google es para alquilar sillas.
Y si falla Google, en general no es culpa suya, sino que viene de fábrica, es decir, de la IA; el problema son los referentes, el conjunto de datos, que entre los sesgos que tiene hay el del anglocentrismo.
Un Messi gigante o el gigante del Messi
Un caso parecido lo podemos ver con Midjourney, el popular generador de imágenes basado en IA. Si os pido que dibujéis un "Gigante del Messi", si sois de este lado del Mediterráneo, entenderéis que estoy pidiendo un gigante de fiesta mayor con la cara de Lionel Messi. Dani Julià le pidió en mayo del 2023 a Midjourney que generara un "Gigante de Messi". El resultado fue un tipo de persona enorme más parecida a un leñador de Minnesota que a nuestros gigantes. Esto es porque Midjourney utilizó como referente los millones de imágenes que tiene de Paul Bunyan, un leñador gigante del folclore norteamericano de Minessota. Podéis comprobar el parecido haciendo una búsqueda en Google Images por Paul Bunyan.
Hecho con un apunte al midjourney pic.twitter.com/dgx3vhhrgi
— danieljulia.tez (@daniel_julia) May 4, 2023
La importancia de los referentes culturales en el texto
El caso de los gigantes es muy visual y, por lo tanto, evidente. Pero ¿qué pasa con el texto? ¿Qué pasa con los referentes de la cultura receptora que están ausentes en los datos de entrenamiento? El problema es que los textos generados por la IA pueden estar escritos en un catalán perfecto, pero faltos de referentes culturales catalanes. Esto puede llevarnos a aceptarlos de manera acrítica, solo porque están bien escritos. Además, estos sistemas a menudo antropomorfizan sus capacidades, afirmando que "piensan", "analizan" o "escriben" hecho que nos genera una búsqueda de sensación de inteligencia. En realidad, no hacen nada de todo esto; lo único que hacen es computar.
La aceptación acrítica de la IA
Del mismo modo que corremos el riesgo de perpetuar e incluso amplificar sesgos con la aceptación acrítica de lo que la IA nos genera, también corremos el riesgo de llenar el mundo con un monocultivo cultural que se nos muestre en nuestra lengua, pero que margine todos los referentes culturales propios. Se añade el hecho que quien controla estos grandes modelos de lenguaje son cinco empresas, literalmente cinco, que se pueden contar con los dedos de una mano. Una aceptación acrítica equivaldría a dar la clave de la propagación cultural a cinco empresas que no lo tienen precisamente entre sus objetivos fundacionales.
Una oportunidad si lo hacemos bien
Por otro lado, si gestionamos bien esta tecnología, podría ser un bien de Dios. El número de hablantes de una lengua o miembros de una cultura de destino dejaría de ser parte de la ecuación de los costes de producción de contenidos. Producir contenidos en catalán podría tener la misma relación de coste/beneficio que en inglés.
Imaginemos una previa de un partido Barça-Bayern. Todos los periodistas deportivos alemanes podrían acceder a contenidos de última hora del Barça, localizados en alemán pero escritos y pensados en catalán. Esta localización de contenidos a la cultura alemana podría incluir transmisiones, comentarios y ruedas de prensa incluso en directo.
Otro ejemplo podría ser el de un medio de Mallorca, por ejemplo Sa Plaça, que por el mismo coste de hacer el diario en catalán, podría tenerlo simultáneamente en castellano, alemán, inglés y ruso. Un turista británico que quisiera informarse de la actualidad de Mallorca no tendría que ir a una fuente escrita y pensada en inglés, sino que podría acceder a contenidos pensados y creados en catalán localizados a su cultura.
Me han salido muchos ejemplos mallorquín-alemanes porque hace un par de días estuvimos hablando en Palma precisamente de esto con compañeros de medios baleares, sobre la IA en las redacciones y cómo puede ayudarlos en su día a día. Fue en una jornada organizada por el AMIC, la Associació de Mitjans d'Informació i Comunicació.
Por cierto, los medios de las islas están muy preocupados porque los sistemas de transcripción y generación de voz en catalán basados en IA no acaban de funcionar bastante bien en mallorquín, menorquín e ibicenco. Todavía menos cuando se mezcla el registro formal y el informal.
Le hace falta todavía mucha más cultura a la inteligencia. A la artificial, también.