Recaptcha, i els milions de vegades que hem treballat de franc per a Google

Els secrets i desafiaments de l'eina de Google que serveix per autentificar si som un robot o una persona, amb un salt a Duolingo i el català

L'anàlisi

reCAPTCHA és un servei de Google que ajuda a protegir els llocs web del spam i els robots mitjançant l'autentificació | VIA Empresa

Elena Busquets

Directora de VIA Empresa

Barcelona

18 de Maig de 2024

Act. 16 de Juliol de 2024

"Selecciona les imatges on hi hagi un semàfor". "Selecciona les imatges on hi hagi un cartell". Aquestes són algunes de les indicacions que ens hem acostumat a obeir per demostrar a Google que no som pas un robot. Són els enunciats més comuns dels Recaptchas, una eina d'autentificació propietat de Google que les pàgines web i les aplicacions utilitzen per autentificar, per exemple, que qui està comprant una entrada d'un concert és una persona, i no pas un robot que les compra en massa per revendre-les després. Ara bé, aquesta eina de Google, tan quotidiana per a tots els internautes, amaga molts secrets i una gran pregunta: sense saber-ho, hem estat contribuint durant anys a digitalitzar milions de llibres amb les nostres respostes i entrenar els sistemes d'aprenentatge automàtic del gegant tecnològic. I la pregunta: són útils aquestes eines, ara que un robot, realment, les pot respondre millor que nosaltres? Com ha contraatacat Google?

El captcha (que prové de les sigles en anglès Completely Automated Public Turing test to tell Computers and Humans Apart) és un test de desafiament i resposta -més tard rebatejat com a Recaptcha- que es fa servir a Internet per determinar si un usuari és humà o no. El més popular i senzill de tots és el que ens demana marcar una casella per confirmar, directament, que "no som un robot". L'eina, que la va comprar Google a l'informàtic Luis von Ahn -en parlarem d'ell més endavant- l'any 2009, proposa una prova que, malgrat no ser molt complicada per als humans, suposa un obstacle per a programes informàtics mediocres que busquen fer spam o fer accions massives, com comprar productes o entrades.

Fins aquí, no hem dit res nou: tots hem hagut de resoldre desenes o centenars de Recaptchas al llarg de la nostra vida: desxifrar paraules que semblen distorsionades, indicar quantes de les imatges presentades contenen un semàfor, o un cartell, o un menjar en concret; o fins i tot, indicar quin és el número que es veu a les portes d'un edifici, d'una imatge extreta de Google Earth. El que molts no sabíem, quan fèiem aquestes proves, és que estàvem treballant de franc per a Google, per entrenar els seus sistemes de machine learnig i que, fins i tot, hem arribat a digitalitzar milions de llibres amb les nostres paraules desxifrades.

Visualització del Captcha més popular i senzill, que consisteix en marcar una casella per confirmar que "no som un robot"

Visualització del Captcha més popular i senzill, que consisteix a marcar una casella per confirmar que "no som un robot"

Von Ahn va ser un pioner a l'hora d'apostar pel crowdsourcing, la col·laboració oberta entre moltes persones per externalitzar tasques. I, de fet, les seves investigacions l'han fet guanyar força premis al llarg de la seva carrera. Amb aquest principi, si en comptes de fer un clic a la casella de "No sóc un robot", es demanava més informació a l'usuari, aquest -a més de demostrar que no és un robot- podia estar contribuint a l'entrenament dels algoritmes de Google. És a dir, nosaltres no hem digitalitzat els milions de llibres, sinó que hem ensenyat a la màquina a fer-ho: el machine learning consisteix en analitzar, mitjançant algoritmes, grans quantitats de dades per extreure correlacions i, així, obtenir prediccions o resolucions de problemes futurs semblants.

Succeïx el mateix amb la detecció de semàfors o altres objectes del carrer. Si milions de persones indiquen a la màquina què és un semàfor i què no, mitjançant un ventall gairebé infinit d'imatges, la màquina haurà entrenat prou el seu algoritme per determinar amb més exactitud què és un semàfor i què no ho és.

De fet, la història de la digitalització dels llibres és la més cridanera i coneguda, però en el fons no és nou que Google, com totes les grans tecnològiques, utilitza tota la informació de la nostra petjada digital. I ells mateixos ho reconeixen, a les seves polítiques de privacitat: "Utilitzem la informació que recollim dels serveis actuals per desenvolupar-ne de nous".

Dels llibres a la lectura del carrer

Com recollia aquesta informació Google? Per entrenar l'algoritme amb el desxiframent de paraules, la multinacional estatunidenca mostrava dos conjunts de lletres: una paraula que coneixia -que ja servia per autentificar que l'usuari era humà- i una altra paraula d'algun llibre o text que encara no havia sigut transcrita i digitalitzada. Així, amb les respostes de milions i milions de persones, Google va poder recopilar prou dades (el dataset) perquè el seu algoritme pogués "entendre" amb força precisió el que deien aquell conjunt de lletres. El resultat? En només tres anys, i el treball col·lectiu de tots, Google va aconseguir transcriure milions de llibres i 13 milions d'articles antics del New York Times.

"En només tres anys, i el treball col·lectiu de tots, Google va aconseguir transcriure milions de llibres i 13 milions d'articles antics del New York Times"

L'any 2011, amb una biblioteca digital ben àmplia i actualitzada, va decidir fer un pas més i nodrir altres serveis seus utilitzant les possibilitats de crowdsourcing de Recaptcha. Per què no canviar les paraules per imatges de Google Maps? Que l'algoritme entengui a la perfecció tots els objectes que l'envolten és quelcom vital, per exemple, per al bon funcionament d'un cotxe autònom, que ha de poder distingir un semàfor, un vianant, un cartell o altres vehicles des de qualsevol perspectiva.

Recaptcha en què s'ha de seleccionar aquelles imatges on apareix un semàfor

I amb la detecció d'objectes, va utilitzar el mateix funcionament: de les 9 imatges d'objectes diferents que mostra el Recaptcha, Google ja en sap la resposta de moltes d'elles. I la resta de la informació, li serveix per continuar entrenant el seu algoritme.

El repte: quan la IA respon millor que l'humà

Ara bé, en un moment en què la intel·ligència artificial (IA) està tan avançada, realment, no comptem amb robots i algoritmes prou entrenats capaços de respondre a aquestes proves millor que nosaltres? La resposta és sí. I, a més, ja no cal que es tracti d'una IA molt avançada. El mateix Google va desenvolupar una IA que resolia els textos distorsionats amb una precisió del 99,8%, mentre que els humans encertaven en el 33% dels casos. I com Google, moltes altres companyies van desenvolupar tecnologies semblants amb grans percentatges d'èxit. Això, de fet, va succeir abans del 2018, any en què Google va llançar la versió Recaptcha v3, justament per contraatacar aquesta capacitat de la IA. En el fons, és el joc del gat i el ratolí, en el qual desenvolupadors de ciberseguretat i de IA van trobant-se -i sorprenent-se- a cada cantonada, amb els avenços que els permet desenvolupar la tecnologia.

Per això, a les últimes versions de Recaptcha (actualment hi ha quatre), Google està analitzant altres indicadors per detectar si es tracta d'un usuari real o un bot. Per exemple, està analitzant el moviment: mentre que el robot segueix un traçat lineal perfecte, les persones movem el ratolí de manera irregular i, moltes vegades, erràtica. De fet, en la versió de Recaptcha 3, Google ja no proposa una prova per a l'usuari en forma de test, sinó que analitza el seu comportament de navegació per la pàgina web o plataforma (moviment, temps de permanència i interaccions) i li assigna una puntuació en funció del seu comportament. Aquesta puntuació s'utilitza després per permetre o bloquejar el seu accés.

Podria una intel·ligència artificial burlar aquest filtre i simular el comportament humà en la navegació per internet? Doncs sí. El que dèiem: el joc del gat i el ratolí. De moment, ja hi ha robots capaços de fer un traç molt semblant al d'un humà en el moviment del ratolí. Ara bé, és més complicat simular també un comportament de navegació humà versemblant. Complicat, no impossible.

A les últimes versions de Recaptcha, Google està analitzant altres indicadors vinculats al comportament en la navegació per detectar si es tracta d'un usuari real o un bot

A l'última versió de Recaptcha, Recaptcha Enterprise, Google perfecciona encara més aquesta tècnica i ofereix un servei de seguretat en línia més sofisticat, dissenyat per a empreses amb grans volums de trànsit i requisits avançats de seguretat.

Amb aquestes actualitzacions i noves versions, Google ja no necessita les nostres respostes per entrenar l'algoritme, però manté el crowdsourcing agafant de nosaltres una altra informació, relativa al nostre comportament. La nostra petjada digital és molt valuosa i és, clarament, el que "paguem" per utilitzar serveis que són aparentment gratuïts per a l'usuari. Ja ho sabem: "Si no pagues pel producte, el producte ets tu". El capitalisme de vigilància, que no és quelcom exclusiu de Google: ho fan totes les grans tecnològiques.

Bonustrack: Luis von Ahn mereix un capítol a part

La història de Luis von Ahn, el creador de Captcha i Recaptcha, realment, mereix un capítol a part. Ell és un informàtic i empresari guatemalenc que ha desenvolupat projectes tecnològics de gran impacte mundial. A més de Recaptcha, de fet, va ser el creador de la coneguda aplicació mòbil per aprendre idiomes Duolingo.

Des de ben petit, von Ahn va demostrar tenir una gran habilitat amb la tecnologia. I, de fet, va aprendre a programar amb 8 anys. Als 13 ja desenvolupava els seus propis softwares. I aquestes fites tenen molt de mèrit, si tenim en compte que van succeir fa gairebé 40 anys. Ara, els nens tenen a l'abast un munt d'eines per aprendre a programar des dels 4 anys.

Von Ahn va ser un dels pioners del concepte de crowdsourcing, aquest model en què s'externalitzen tasques mitjançant la participació d'un gran col·lectiu. És, de fet, la cirereta que va atraure a Google i que va fer que la companyia li comprés Recaptcha, l'any 2009.

Duolingo utilitza un funcionament semblant a Recaptcha: mentre els usuaris aprenen, ajuden a traduir webs i altres documents

Després de vendre la seva creació a Google, l'any 2012 va llançar al mercat Duolingo, una plataforma d'aprenentatge virtual d'idiomes i traducció que utilitza un funcionament semblant a Recaptcha: mentre els usuaris aprenen, ajuden a traduir webs i altres documents. El projecte, en veritat, malgrat que el va llançar el 2012, el va començar a desenvolupar l'any 2006, gràcies a l'atorgament de dues beques, la Beca MacArthur i la beca de la Nacional Science Foundation dels EUA. L'aplicació, que va ser elegida el 2013 com a l'app de l'any per iPhone, ha assolit al llarg dels anys una gran notorietat a escala mundial i compta (amb dades del 2023) amb 83 milions d'usuaris actius i 5,8 milions de subscriptors de pagament.

Luis von Ahn, conseller delegat de Duolingo, l'any 2021 | Europa Press

Actualment Duolingo compta amb 562.000 usuaris actius castellanoparlants que estan aprenent el català

Per cert, l'any 2015 Duolingo va llançar, a través de la seva Incubadora de Llengües, la versió beta del curs de català per a parlants de castellà i, tres dies més tard, ja hi havia 5.000 estudiants inscrits. De fet, va ser una de les primeres llengües minoritzades que va acollir la plataforma, juntament amb l'irlandès. Aquest curs, que ja no és beta, actualment compta amb 562.000 usuaris actius, castellanoparlants, que estan aprenent el català.

La companyia de von Ahn, que ha rebut milionàries inversions de la matriu de Google al llarg dels anys, cotitza a borsa, va tancar el 2023 amb un volum de negoci de 484 milions de dòlars, disposa de 40 idiomes en el seu catàleg i està fent el salt a altres branques de coneixement, com les matemàtiques i la música.