Per què s'equivoca tant l'autocorrector?

Hem quedat a menjar en un restaurant amb una amiga. Quan arriben els primers plats, interromp la conversa per a dir: “Em passes la…?” mentres mira cap a un lloc concret de la taula. Segurament no necessitem més paraules ni gestos per a entendre que es referix a la sal i li la passem.

Les persones no necessitem que el nostre interlocutor acabe la seua frase per a saber què és el que vol dir. El nostre coneixement de l'estructura interna de la llengua ens permet anticipar quina paraula utilitzarà. A més, el context de la situació comunicativa ens dona informació sobre el contingut i les expressions que dirà el nostre interlocutor.

L'autocorrector del teclat del mòbil intenta replicar este comportament humà a partir de tècniques estadístiques i de processament del llenguatge natural (PLN). Amb això calcula la probabilitat que una lletra, paraula o seqüència aparega en funció de la seua freqüència en grans quantitats de text utilitzades per a entrenar el model.

Sobre eixa base estadística, el PLN incorpora també l'anàlisi de l'estructura i el significat de les paraules, buscant patrons i relacions entre elles per a generar correccions més coherents amb el context.

Per què, llavors, insistix a substituir “jobar” per “Jonathan” (si no conec a cap Jonathan) o ens fa semblar una miqueta excèntrics si afirmem en un missatge que hem presentat una documentació via “telepática” en lloc de “telemàtica”?

Combinant regles i l'ús individual

El sistema de processament del llenguatge natural dels autocorrectors que usem quotidianament es basa en el seu diccionari intern, en les regles sintàctiques pròpies de la llengua i en l'historial de l'usuari. El diccionari intern es construïx inicialment a partir de textos d'entrenament procedents de llibres, articles acadèmics i fonts en línia, entre altres, que proporcionen un coneixement general de l'idioma. A partir d'ací, el sistema combina este aprenentatge previ amb regles lingüístiques predefinides i amb la informació que recol·lecta de l'historial de l'usuari. Com a resultat, el sistema anticipa la cadena de text més probable segons l'aprés.

En un principi, estes ferramentes van aparéixer per a assistir a persones amb discapacitats físiques, perceptives o cognitives en el seu ús de l'idioma a través de sistemes informàtics. No obstant això, una vegada integrades adequadament en la interfície de les aplicacions, poden beneficiar a qualsevol usuari millorant la velocitat i l'esforç necessari per a escriure.

Predir com s'escriu no és fàcil

L'aplicació del teclat del mòbil maneja el seu propi diccionari de paraules i construccions, en el qual poden no estar contemplades totes les opcions. A partir de l'escriptura de l'usuari i de la freqüència amb la qual empra unes certes expressions, les prediccions es individualitzen.

Així i tot, continua sent un treball complex per al sistema perquè no n'hi ha prou amb conéixer tots els termes possibles. També ha de decidir quin és el més adequat segons el context i la intenció de l'usuari. Per exemple, el substantiu “casa” és completament correcte i acceptat en la parla diària. No obstant això, en un procés oficial o administratiu és més adequat utilitzar “vivenda”.

Per què les prediccions ‘fallen’

Pot imaginar-se el diccionari del dispositiu com una estructura d'arbre en la qual davant una entrada d'un bloc de text s'obrin unes certes possibilitats amb diversos graus de freqüència que es va afinant a mesura que la persona escriu. Dins de les prediccions, algunes poden estar motivades per una programació específica del sistema, com evitar l'ús de paraules malsonants, i una altra per l'aprenentatge explícit, en el qual l'usuari agrega unes certes expressions al propi diccionari del dispositiu. Per esta raó, l'autocorrector no sempre coincidix amb el que l'usuari espera a cada moment.

Per a optimitzar el procés d'escriptura, les aplicacions tenen dos formes principals d'incloure els suggeriments: oferir una llista d'opcions en funció de la probabilitat o introduir directament el terme en el text. En el primer cas, l'usuari ha d'analitzar les alternatives de manera conscient. En el segon, el discurs es construïx de manera més ràpida i orgànica, però la persona ha d'eliminar activament el suggeriment si no és la desitjada.

Encara que en la majoria d'ocasions el sistema troba la paraula requerida, fins a un 94 % de les vegades tendim a recordar molt més vívidament aquells moments en els quals comet un error greu. A més, segons un estudi, solem experimentar frustració quan les mateixes fallades es repetixen de manera sistemàtica. Tanmateix, això és normal: l'aprenentatge de l'autocorrector no és immediat, sinó gradual, i funciona de manera probabilística, combinant el que ja sap de grans textos amb la informació nova que arreplega de l'historial de l'usuari.

Malgrat això, la majoria d'usuaris, tant de iOS com d'Android, afirma que els autocorrectors integrats en el teclat milloren la seua eficiència escrivint i ajuden a reduir errors. A més, un ús continuat de les ferramentes millora progressivament la seua efectivitat en oferir una experiència més personalitzada.

La competència lèxica és només humana

Ara bé, no hem d'oblidar que el diccionari de l'autocorrector és un magatzem de paraules, el funcionament de les quals s'allunya del lexicón mental de l'usuari humà. Dit lexicón es construïx a partir de l'establiment de xarxes entre les diferents unitats lèxiques en funció de diferents tipus de relacions (famílies lèxiques, camps semàntics, cognats, etc.). L'autocorrector, per part seua, compta amb una gran disponibilitat lèxica, però no domina els aspectes relacionats amb la forma, el significat i l'ús de cada unitat lèxica, és a dir, manca de la competència lèxica i comunicativa que posseïxen els parlants.

Malgrat estes limitacions, s'estan desenrotllant propostes que demostren que és possible millorar la correcció contextual, com la de PALABRIA-CM-UC3M, que se centra en el fenomen lingüístic del tu impersonal. Mitjançant tècniques lingüístiques i models d'intel·ligència artificial que aprenen els patrons i contextos d'este fenomen, el sistema pot identificar i corregir errors que un autocorrector convencional no detectaria.

Encara que poden continuar aprenent nous patrons i ampliant el seu coneixement per a oferir correccions cada vegada més encertades, els autocorrectors no deixen de ser models matemàtics que operen a partir de patrons i regles apreses, sense aconseguir la comprensió profunda, flexible i contextual que caracteritza a l'ús humà de la llengua. Mai seran infal·libles. Ni tan sols ho som nosaltres: sovint, com en l'exemple del principi, les nostres prediccions poden resultar errònies, i li passem la sal a algú que en realitat volia el pitxer d'aigua.

Pedro Manuel Moreno-Marcos, Professor Titular en el Departament d'Enginyeria Telemàtica de la Universitat Carles III de Madrid, Universitat Carles III; Marina Serrano-Marín, Professora Ajudant Doctor en el Departament d'Humanitats de la Universitat Carles III de Madrid, Universitat Carles III; Natalia Centeno Alejandre, Tècnic Especialista en Intel·ligència Artificial, Universitat Carles III i Rafael Fernández Castillejos, Tècnic Especialista en el Departament d'Humanitats: Filosofia, Llenguatge i Literatura, Universitat Carles III

Este article va ser publicat originalment en The Conversation. Llija el original.

Crónica CT
* ho pots llegir perquè som Creative Commons