"Selecciona las imágenes en las que haya un semáforo". "Selecciona las imágenes en las que haya un cartel". Estas son algunas de las indicaciones que nos hemos acostumbrado a obedecer para demostrar a Google que no somos un robot. Son los enunciados más comunes de los Recaptchas, una herramienta de autenticación propiedad de Google que las páginas web y las aplicaciones utilizan por autentificar, por ejemplo, que quien está comprando una entrada de un concierto es una persona, y no un robot que las compra en masa para revenderlas después. Ahora bien, esta herramienta de Google, tan cotidiana para todos los internautas, esconde muchos secretos y una gran pregunta: sin saberlo, hemos estado contribuyendo durante años a digitalizar millones de libros con nuestras respuestas y entrenar los sistemas de aprendizaje automático del gigante tecnológico. Y la pregunta: ¿son útiles estas herramientas ahora que un robot, realmente, las puede responder mejor que nosotros? ¿Cómo ha contraatacado Google?
El captcha (que proviene de las siglas en inglés Completely Automated Public Turing test to tell Computers and Humans Apart) es un test de desafío y respuesta -más tarde rebautizado como Recaptcha- que se usa en Internet para determinar si un usuario es humano o no. El más popular y sencillo de todos es el que nos pide marcar una casilla para confirmar, directamente, que "no somos un robot". La herramienta, que la compró Google al informático Luis von Ahn - hablaremos de él más adelante- en el 2009, propone una prueba que, a pesar de no ser muy complicada para los humanos, supone un obstáculo para programas informáticos mediocres que buscan hacer spam o hacer acciones masivas, como comprar productos o entradas.
Hasta aquí, no hemos dicho nada nuevo: todos hemos tenido que resolver decenas o centenares de Recaptchas a lo largo de nuestra vida: descifrar palabras que parecen distorsionadas, indicar cuántas de las imágenes presentadas contienen un semáforo, o un cartel, o una comida en concreto; o incluso, indicar cuál es el número que se ve en la puerta de un edificio, de una imagen extraída de Google Earth. Lo que muchos no sabíamos cuando hacíamos estas pruebas, es que estábamos trabajando gratis para Google, para entrenar sus sistemas de machine learnig y que, incluso, hemos llegado a digitalizar millones de libros con nuestras palabras descifradas.
Von Ahn fue un pionero a la hora de apostar por el crowdsourcing, la colaboración abierta entre muchas personas para externalizar tareas. Y, de hecho, sus investigaciones le han hecho ganar bastantes premios a lo largo de su carrera. Con este principio, si en vez de hacer un clic en la casilla de "No soy un robot", se pedía más información al usuario, éste -además de demostrar que no es un robot- podía estar contribuyendo al entrenamiento de los algoritmos de Google. Es decir, nosotros no hemos digitalizado los millones de libros, sino que hemos enseñado a la máquina a hacerlo: el machine learning consiste en analizar, mediante algoritmos, grandes cantidades de datos para extraer correlaciones y, así, obtener predicciones o resoluciones de problemas futuros parecidos.
Sucede lo mismo con la detección de semáforos u otros objetos de la calle. Si millones de personas indican a la máquina qué es un semáforo y qué no, mediante un abanico casi infinito de imágenes, la máquina habrá entrenado lo suficiente su algoritmo para determinar con más exactitud qué es un semáforo y qué no lo es.
De hecho, la historia de la digitalización de los libros es la más llamativa y conocida, pero en el fondo no es nuevo que Google, como todas las grandes tecnológicas, utiliza toda la información de nuestra huella digital. Y ellos mismos lo reconocen, en sus políticas de privacidad: "Utilizamos la información que recogemos de los servicios actuales para desarrollar nuevos".
De los libros a la lectura de la calle
¿Cómo recogía esta información Google? Para entrenar al algoritmo con el desciframiento de palabras, la multinacional estadounidense mostraba dos conjuntos de letras: una palabra que conocía -que ya servía por autentificar que el usuario era humano- y otra palabra de algún libro o texto que todavía no había sido transcrita y digitalizada. Así, con las respuestas de millones y millones de personas, Google pudo recopilar suficientes datos (el dataset) para que su algoritmo pudiera "entender" con bastante precisión lo que decían aquel conjunto de letras. ¿El resultado? En solo tres años, y el trabajo colectivo de todos, Google consiguió transcribir millones de libros y 13 millones de artículos antiguos del New York Times.
"En solo tres años, y el trabajo colectivo de todos, Google consiguió transcribir millones de libros y 13 millones de artículos antiguos del New York Times"
En el año 2011, con una biblioteca digital muy amplia y actualizada, decidió dar un paso más y nutrir otros servicios suyos utilizando las posibilidades de crowdsourcing de Recaptcha. ¿Por qué no cambiar las palabras por imágenes de Google Maps? Que el algoritmo entienda a la perfección todos los objetos que lo rodean es algo vital, por ejemplo, para el buen funcionamiento de un coche autónomo, que tiene que poder distinguir un semáforo, un peatón, un cartel u otros vehículos desde cualquier perspectiva.
Y con la detección de objetos, utilizó el mismo funcionamiento: de las 9 imágenes de objetos diferentes que muestra el Recaptcha, Google ya sabe la respuesta de muchas de ellas. Y el resto de la información, le sirve para continuar entrenando su algoritmo.
El reto: cuando la IA responde mejor que el humano
Ahora bien, en un momento en el que la inteligencia artificial (IA) está tan avanzada, realmente, ¿no contamos con robots y algoritmos suficientemente entrenados capaces de responder a estas pruebas mejor que nosotros? La respuesta es sí. Y, además, ya no hace falta que se trate de una IA muy avanzada. El mismo Google desarrolló una IA que resolvía los textos distorsionados con una precisión del 99,8%, mientras que los humanos acertaban en el 33% de los casos. Y como Google, otras muchas compañías desarrollaron tecnologías parecidas con grandes porcentajes de éxito. Esto, de hecho, sucedió antes del 2018, año en el que Google lanzó la versión Recaptcha v3, justamente por contraatacar esta capacidad de la IA. En el fondo, es el juego del gato y el ratón, en el cual desarrolladores de ciberseguridad y de IA van encontrándose -y sorprendiéndose- en cada esquina, con los adelantos que les permite desarrollar la tecnología.
Por eso, en las últimas versiones de Recaptcha (actualmente hay cuatro), Google está analizando otros indicadores para detectar si se trata de un usuario real o un bot. Por ejemplo, está analizando el movimiento: mientras que el robot sigue un trazado lineal perfecto, las personas movemos el ratón de manera irregular y, muchas veces, errática. De hecho, en la versión de Recaptcha 3, Google ya no propone una prueba para el usuario en forma de test, sino que analiza su comportamiento de navegación por la página web o plataforma (movimiento, tiempo de permanencia e interacciones) y le asigna una puntuación en función de su comportamiento. Esta puntuación se utiliza después para permitir o bloquear su acceso.
¿Podría una inteligencia artificial burlar este filtro y simular el comportamiento humano en la navegación por internet? Pues sí. Lo que decíamos: el juego del gato y el ratón. De momento, ya hay robots capaces de hacer un trazo muy parecido al de un humano en el movimiento del ratón. Ahora bien, es más complicado simular también un comportamiento de navegación humano verosímil. Complicado, no imposible.
En las últimas versiones de Recaptcha, Google está analizando otros indicadores vinculados al comportamiento en la navegación para detectar si se trata de un usuario real o un bot
En la última versión de Recaptcha, Recaptcha Enterprise, Google perfecciona todavía más esta técnica y ofrece un servicio de seguridad en linea más sofisticado, diseñado para empresas con grandes volúmenes de tráfico y requisitos avanzados de seguridad.
Con estas actualizaciones y nuevas versiones, Google ya no necesita nuestras respuestas para entrenar al algoritmo, pero mantiene el crowdsourcing cogiendo de nosotros otra información, relativa a nuestro comportamiento. Nuestra huella digital es muy valiosa y es, claramente, lo que "pagamos" por utilizar servicios que son aparentemente gratuitos para el usuario. Ya lo sabemos: "Si no pagas por el producto, el producto eres tú". El capitalismo de vigilancia, que no es algo exclusivo de Google: lo hacen todas las grandes tecnológicas.
Bonustrack: Luis von Ahn merece un capítulo aparte
La historia de Luis von Ahn, el creador de Captcha y Recaptcha, realmente, merece un capítulo aparte. Él es un informático y empresario guatemalteco que ha desarrollado proyectos tecnológicos de gran impacto mundial. Además de Recaptcha, de hecho, fue el creador de la conocida aplicación móvil para aprender idiomas Duolingo.
Desde muy pequeño, von Ahn demostró tener una gran habilidad con la tecnología. Y, de hecho, aprendió a programar con 8 años. A los 13 ya desarrollaba sus propios softwares. Y estos hitos tienen mucho mérito, si tenemos en cuenta que sucedieron hace casi 40 años. Ahora, los niños tienen al alcance un montón de herramientas para aprender a programar desde los 4 años.
Von Ahn fue uno de los pioneros del concepto de crowdsourcing, modelo en el que se externalizan tareas mediante la participación de un gran colectivo. Es, de hecho, el caramelo que atrajo a Google y que hizo que la compañía le comprara Recaptcha, en 2009.
Duolingo utiliza un funcionamiento parecido a Recaptcha: mientras los usuarios aprenden, ayudan a traducir webs y otros documentos
Después de vender su creación a Google, en 2012 lanzó al mercado Duolingo, una plataforma de aprendizaje virtual de idiomas y traducción que utiliza un funcionamiento parecido a Recaptcha: mientras los usuarios aprenden, ayudan a traducir páginas web y otros documentos. El proyecto, en verdad, a pesar de que lo lanzó en el 2012, lo empezó a desarrollar en el 2006, gracias al otorgamiento de dos becas, la Beca MacArthur y la beca de la Nacional Science Foundation de EE.UU.. La aplicación, que fue elegida en el 2013 como la app del año por iPhone, ha logrado a lo largo de los años una gran notoriedad a escala mundial y cuenta (con datos del 2023) con 83 millones de usuarios activos y 5,8 millones de subscriptores de pago.
Actualmente Duolingo cuenta con 562.000 usuarios activos castellanoparlantes que están aprendiendo el catalán
Por cierto, en el 2015 Duolingo lanzó, a través de su Incubadora de Lenguas, la versión beta del curso de catalán para hablantes de castellano y, tres días más tarde, ya había 5.000 estudiantes inscritos. De hecho, fue una de las primeras lenguas minorizadas que acogió la plataforma, junto con el irlandés. Este curso, que ya no es beta, actualmente cuenta con 562.000 usuarios activos, castellanoparlantes, que están aprendiendo el catalán.
La compañía de von Ahn, que ha recibido millonarias inversiones de la matriz de Google a lo largo de los años, cotiza en bolsa, cerró el 2023 con un volumen de negocio de 484 millones de dólares, dispone de 40 idiomas en su catálogo y está haciendo el salto a otras ramas de conocimiento, como las matemáticas y la música.