shutterstock. Gorodenkoff/Shutterstock |
A principis dels anys huitanta els meus pares van portar a casa un ordinador domèstic connectat a la pantalla del televisor. Allò em va motivar per a “jugar” a científic. M'enorgullia publicar en aquelles primeres revistes d'informàtica senzills programes sobre com dibuixar funcions matemàtiques, monitorar el codi màquina del microprocessador o rudimentàries animacions i jocs d'ordinador.
Tot es publicava incloent explicació detallada de com es feia el treball i el codi font complet del programa, perquè qualsevol poguera copiar-lo, provar-lo, comprendre-ho, reproduir-lo i modificar-lo fàcilment per a qualsevol propòsit. Això és la versió de ciència oberta més elemental, concebuda com a empresa universal col·lectiva i acumulativa.
Els principis de la ciència oberta
La ciència oberta es referix a la pràctica de fer que totes les etapes del procés científic siguen transparents i accessibles per als altres. Això inclou la publicació d'articles d'investigació amb les seues dades, mètodes detallats, bases teòriques i pràctiques, experiments, així com qualsevol informació o ferramenta necessària per a poder repetir la investigació.
Els objectius són permetre la reproducibilidad, fomentar la col·laboració i facilitar la construcció sobre coneixements previs per a avançar en el coneixement. Això és fonamental perquè la investigació científica siga creïble, ètica i accessible, i puga revisar-se, validar-se i desenrotllar-se a partir d'ella.
Què ocorre amb la IA?
Com en qualsevol disciplina, la ciència oberta en intel·ligència artificial és l'única manera de garantir la reproducibilidad i la transparència i, per tant, el seu avanç públic i el seu ús coherent amb principis col·laboratius, acumulatius i en benefici de la humanitat.
La gran majoria dels qui es dediquen a la investigació en ciències de la computació creu en la publicació dels seus avanços seguint estos principis. El codi obert és un dels elements importants –encara que no l'únic– de qualsevol ferramenta informàtica que vulga fomentar l'avanç científic.
Especialistes d'este àrea de coneixement han anat creant diverses organitzacions sense ànim de lucre per a definir amb precisió en què consistix la investigació i el desenrotllament en el seu àmbit.
Per exemple, en 1998, es va fundar la Iniciativa per al codi obert (Open Source Initiative, OSI), i el seu definició de codi obert (open source) és l'estàndard internacional més acceptat.
Perquè un programa es considere de codi obert no n'hi ha prou amb facilitar l'accés al programa compilat, sinó també a tot el codi font. Tinguem en compte que este últim –també anomenat llenguatge d'alt nivell– és un programa escrit en un llenguatge de programació llegible per una persona. Mentres, el codi compilat –o llenguatge màquina– és una traducció del codi font a un arxiu binari que un circuit electrònic el pot executar, però una persona no el pot entendre.
Un altre requisit del codi obert és que permeta la seua modificació i redistribució sota estos mateixos termes i per a tots els usos, inclòs el comercial.
El cas de les empreses tecnològiques
Existixen moltes empreses que creguen riquesa, beneficien a la societat i també es beneficien de la societat. No obstant això, molt poques invertixen en investigació, llevat que creguen que recuperaran la inversió.
És comuna que les companyies tecnològiques privades aprofiten la investigació pública (sufragada pel contribuent) i la utilitzen per a desenrotllar productes amb els quals obtenen grans beneficis. L'economista Mariana Mazzucato sol descriure amb detall un exemple paradigmàtic: el cas de l'iPhone d'Apple.
Amb les empreses dedicades a la intel·ligència artificial, esta realitat és fins i tot més cridanera. Pot ser natural basar els seus productes en idees i investigacions alienes publicades anteriorment, però resulta que la majoria dels models IA més avançats són meres caixes negres inexpugnables: no s'explica la seua lògica interna, no es garantix el seu funcionament ni la seua equitat i no es pot analitzar el codi font.
Molts dels productes més populars, com ChatGPT o el modern traductor SeamlessM4T de Meta, resulten tindre estes indesitjables característiques, encara que s'anuncien com a articles de ciència oberta.
DeepSeek no és codi obert
Alguns més recents, com DeepSeek, intenten superar a la competència permetent disposar del codi compilat, però això no és codi obert, i no aporta avanços per a la investigació científica.
És a dir, a pesar que DeepSeek s'anuncia com “open source”, no permet accedir al codigo font, sinó només al binari (compilat). No es pot llegir, entendre, ni modificar. Per això ningú pot millorar este programa. Només és possible usar-ho com a client de l'empresa, no com a investigador en ciències de la computació.
Davant este panorama, la realitat és que la falta de transparència i reproducibilidad d'estos models informàtics obstaculitza el progrés científic i erosiona la confiança en la investigació en IA.
L'exemple de Rosetta i AlphaFold 3
David Baker, Demis Hassabis i John M. Jumper van rebre el Premi Nobel de Química de 2024 per la predicció de l'estructura de proteïnes. El programari Rosetta va nàixer a la fi del segle XX com un xicotet projecte en el laboratori de David Baker, en la principal universitat pública de l'estat de Washington. El codi font estava escrit i distribuït en el llenguatge d'alt nivell Fortran –que qualsevol especialista pot llegir-lo, entendre i modificar– i se centrava en la predicció ab initio de l'estructura de xicotetes proteïnes.
Partint d'estes idees i usant les bases de dades sobre proteïnes publicades per la comunitat investigadora, l'empresa Google DeepMind va desenrotllar una potent anàlisi estadística de dades mitjançant el seu codi IA AlphaFold i AlphaFold 2.
Al maig de 2024, DeepMind va presentar el seu model AlphaFold 3 a través d'un article de la revista Nature, que sorprenentment va permetre a DeepMind mantindre el codi del programari no disponible, malgrat la seua pròpia política editorial, que s'enfoca en “posar ràpidament a la disposició dels lectors materials, dades, codi i protocols associats sense qualificacions indegudes”.
AlphaFold tampoc és codi obert
Més de mil membres de la comunitat científica especialista en l'àrea van firmar una carta enviada a Nature perquè este article “no complix les normes de la comunitat científica de ser utilitzable, escalable i transparent”.
Sis mesos després, DeepMind va deixar disponible el codi sota una llicència Creative Commons restrictiva. Així tot, les seues condicions no complixen la definició de “open source” de l'OSI. DeepMind no publica els pesos (el resultat de l'entrenament de la seua xarxa neuronal) del model. Per a obtindre'ls, cal sol·licitar-li'ls i és la pròpia empresa qui decidix si els dona o no en cada cas. Sense ells, no és possible usar AlphaFold 3 per a predir estructura de proteïnes.
Així mateix, prohibix explícitament l'ús dels paràmetres o resultats del model AlphaFold 3 per a activitats comercials, inclòs l'entrenament de models biomoleculars similars.
Este enfocament intenta satisfer en part tant les necessitats científiques com els interessos comercials de l'empresa, però ha de quedar clar que no ens trobem davant un procés de ciència oberta. Un llast per a l'avanç del coneixement científic, que pertany a tota la humanitat.
Victor Etxebarria Ecenarro, Catedràtic, Universitat del País Basc / Euskal Herriko Unibertsitatea
Este article va ser publicat originalment en The Conversation. Llija el original.
Crónica CT
* ho pots llegir perquè som Creative Commons
Cap comentari :