Estoc-Asso/Shutterstock

Existeix una certa tendència a pensar que la intel·ligència artificial ha arribat per a resoldre tots els nostres problemes i que és superior a nosaltres en tots els àmbits. Em guanyarà ChatGPT als escacs? Per a comprovar la seua habilitat davant el tauler, podem fer un xicotet experiment:

Jugarem als escacs. Jo soc blanques: e4

Un moviment d'escacs es pot transcriure a text a través del que es coneix com a notació algebraica estàndard, així que un sistema capaç de generar text també podrà generar moviments d'una partida d'escacs. En l'exemple, el meu contrincant va reaccionar bé i va contestar amb un moviment de resposta bastant raonable. De fet, el més utilitzat davant el meu moviment inicial. La partida va continuar així:

e4 e5
Cf3 Cc6
Ac4 Ac5
c3 Cf6
O-O d6
d4 exd4
cxd4 Ab6
Cd2 O-O
Axb6 axb6
Txa8 Dxa8

En la figura es mostra el tauler tal com queda després de l'octava jugada. Gràcies al meu professor d'escacs, sé que és una partida completament normal; pot ser que es juguen milers com esta cada dia a l'ample i llarg del món.

Fent paranys

En la novena jugada, li vaig tendir un parany al meu rival: li vaig proposar un moviment impossible, ja que cap dels alfils de peces blanques pot aconseguir la casella b6. ChatGPT no va detectar la inconsistència, va acceptar el moviment i va continuar jugant. En la desena jugada, vaig plantejar de nou moviment impossible. Com a resposta, el meu rival va continuar amb un altre moviment també impossible. El que va començar com una partida normal, es va convertir ràpidament en una sèrie de jugades completament surrealistes.

És curiós veure com, a pesar que fa ja molts anys existix programari que pot guanyar als escacs al millor humà, la ferramenta que ha revolucionat per complet el panorama de la intel·ligència artificial no és si més no capaç de detectar moviments il·legals en una partida molt simple. I, precisament per això, és una oportunitat magnífica per a reflexionar en el paper que juguen els grans models de llenguatge (LLM) en el món de la IA generativa.

Obsessió per respondre (el que siga)

La clau de la resposta al meu nové moviment està en la manera de funcionar dels grans models de llenguatge: estan entrenats per a oferir sempre una resposta, sense que això implique que esta siga correcta. En este cas, no es tracta d'un moviment millor o pitjor, sinó d'un resultat completament fora de sentit.

Un gran model de llenguatge ha sigut entrenat amb una tasca molt senzilla: predir la següent paraula davant una seqüència de paraules donada. Este entrenament s'ha anat perfeccionant de tal manera que, en l'actualitat, els models poden generar textos que s'ajusten perfectament a l'estructura de l'idioma. És a dir, que bé podrien haver sigut escrits per humans.

Generar text de manera correcta no és suficient per a aportar una funcionalitat d'utilitat. Per això, els LLM es combinen amb sistemes de busca d'informació: podem afinar el sistema perquè siga capaç d'extraure d'un text gran el fragment que conté la resposta a una pregunta que prèviament hàgem formulat.

A més, pot reformular el text perquè este responga amb exactitud a la pregunta. Esta és, de fet, la base dels sistemes RAG (Retrieval Augmented Generation), capaços de buscar i ampliar informació.

És a dir, la capacitat de respondre al que preguntem és, en essència, la capacitat de buscar una resposta en textos ja existents unida a la capacitat per a reescriure el text perquè la contestació concorde amb la pregunta.

Bon conversador és sinònim d'intel·ligent?

Els usuaris atribuïm inconscientment intel·ligència a este comportament, la qual cosa és en realitat una cosa molt humana: solem atribuir intel·ligència a una persona amb bona retòrica. Fins i tot hi ha estudis que confirmen esta relació.

Esta aparença d'intel·ligència es limita –i hem de ser conscients d'este límit– a una capacitat de generar textos amb un bon ús del llenguatge, fins i tot quan usem els denominats grans models de raonament (Large Reasoning Models, LRM), entrenats per a resoldre tasques de raonament en diversos passos.

Resolució del problema de La torre d'Hanoi amb quatre discos. Wikimedia Commons., CC BY

Tal com podem llegir en l'estudi titulat The Illusion of Thinking, dirigit per la investigadora Parshin Shojaee, estos grans models fallen estrepitosament quan posem a prova de manera sistemàtica la seua capacitat de raonament. En este treball, els autors van utilitzar models de llenguatge per a solucionar problemes com el trencaclosques conegut com Les Torres d'Hanoi i van comprovar que la IA generativa és incapaç de donar amb una solució quan són sis o més els discos que s'apilen.

Programes especialitzats en escacs

Tornant al cas dels escacs, sabem que existixen programes com Stockfish o AlphaZero, capaços de véncer a qualsevol humà. No són, no obstant això, sistemes basats en models de llenguatge, sinó que utilitzen altres tecnologies.

Tenim, d'altra banda, treballs d'investigació com Chessbench, que apliquen la tecnologia usada en els LLM a la construcció de sistemes experts en el joc dels escacs. En lloc de predir la següent paraula d'una oració, la qual cosa fa Chessbench és predir el següent moviment d'una seqüència.

No és bona idea deixar-se guiar per ChatGPT

Experiments com el que dona principi a este article ens recorden que la capacitat de generar textos no implica necessàriament la capacitat de pensar, de raonar. No hem d'atribuir als models de llenguatge qualitats que no tenen.

Seria un error delegar en ells les tasques que haurien d'estar fent els nostres cervells, perquè correm el perill de guiar-nos per textos estructuralment correctes però amb errors tan grollers com menjar un alfil en b6 quan es tracta d'un moviment clarament impossible.

Luis de la Font Valentín, Professor del Màster Universitari en Intel·ligència Artificial, UNIR - Universitat Internacional de La Rioja

Este article va ser publicat originalment en The Conversation. Llija el original.

Al·lucinacions enfront del tauler: així perd als escacs la intel·ligència artificial generativa