Per què la IA No farà art

Per què la IA No farà art

El 1953, Roald Dahl va publicar “La gran gramatitzadora automàtica”, una història breu sobre un enginyer elèctric que desitja secretament ser escriptor. Un dia, després de completar la construcció de la màquina de calcular més ràpida del món, l’enginyer s’adona que “la gramàtica anglesa es regeix per regles que són gairebé matemàtiques en la seva rigorositat”. Construeix una màquina d’escriure de ficció que pot produir una història curta de cinc mil paraules en trenta segons; una novel·la dura quinze minuts i requereix que l’operador manipuli les nanses i els pedals, com si conduís un cotxe o toqués un orgue, per regular els nivells d’humor i patetismo. Les novel·les resultants són tan populars que, en un any, la meitat de la ficció publicada en anglès és producte de la invenció de l’enginyer.

Hi ha alguna cosa en l’art que ens faci pensar que no es pot crear prement un botó, com en la imaginació de Dahl? Ara mateix, la ficció generada per grans models de llenguatge com ChatGPT és terrible, però es pot imaginar que aquests programes podrien millorar en el futur. Com de bons podrien ser? Podrien ser millors que els humans a l’hora d’escriure ficció, o de fer pintures o pel·lícules, de la mateixa manera que les calculadores són millors per a sumar i restar?

L’art és notòriament difícil de definir, i també ho són les diferències entre el bon art i l’art dolent. Però permetin-me una generalització: l’art és una cosa que resulta de fer moltes eleccions. Això podria ser més fàcil d’explicar si utilitzem l’escriptura de ficció com a exemple. Quan estàs escrivint ficció, estàs, conscientment o inconscient, triant gairebé totes les paraules que escriviu; Per simplificar massa, podem imaginar que una història curta de deu mil paraules requereix alguna cosa de l’ordre de deu mil opcions. Quan doneu a un programa d’IA generativa. una indicació, esteu fent molt poques eleccions; si proporcioneu una indicació de cent paraules, heu fet l’ordre de cent opcions.

Si una IA genera una història de deu mil paraules basada en la vostra indicació, ha d’omplir totes les opcions que no feu. Hi ha diverses maneres de fer-ho. Una d’elles és fer una mitjana de les eleccions que han fet altres escriptors, tal com les representa el text trobat a Internet; aquesta mitjana és equivalent a les opcions menys interessants possibles, per això el text generat per IA sovint és realment insípid. Una altra és indicar al programa que es dediqui a la imitació d’estil, emulant les eleccions fetes per un escriptor específic, la qual cosa produeix una història molt derivada. En cap dels dos casos està creant art interessant.

Crec que el mateix principi subjacent s’aplica a l’art visual, tot i que és més difícil quantificar les eleccions que pot fer un pintor. Les pintures reals porten la marca d’un gran nombre de decisions. En comparació, una persona que utilitza un programa de text a imatge com DALL-E introdueix una indicació com ara “Un cavaller amb armadura lluita contra un drac que escup foc” i deixa que el programa faci la resta. (La versió més recent de DALL-E accepta indicacions de fins a quatre mil caràcters: centenars de paraules, però no suficients per descriure tots els detalls d’una escena.) La majoria de les opcions de la imatge resultant s’han de prendre en préstec de pintures similars trobades en línia; la imatge es pot representar de manera exquisida, però la persona que entra al missatge no pot reclamar-ne el crèdit.

Alguns comentaristes imaginen que els generadors d’imatges afectaran la cultura visual tant com ho va fer l’adveniment de la fotografia. Tot i que això podria semblar superficialment plausible, la idea que la fotografia és similar a la IA generativa mereix un examen més acurat. Quan es va desenvolupar la fotografia, sospito que no semblava un mitjà artístic perquè no era evident que hi hagués moltes opcions per fer; només heu de configurar la càmera i començar l’exposició. Però amb el temps la gent es va adonar que hi havia un gran nombre de coses que es podien fer amb les càmeres, i l’art rau en les moltes opcions que fa un fotògraf. Potser no sempre serà fàcil articular quines són les opcions, però quan compareu les fotos d’un aficionat amb les d’un professional, podeu veure la diferència. Aleshores, la pregunta esdevé: hi ha una oportunitat similar per fer un gran nombre d’opcions mitjançant un generador de text a imatge? Crec que la resposta és no. Un artista, tant si treballa digitalment com amb pintura, pren implícitament moltes més decisions durant el procés de realització d’una pintura de les que encaixaria en un missatge de text d’uns quants centenars de paraules.

Podem imaginar un generador de text-a-imatge que, al llarg de moltes sessions, us permeti introduir desenes de milers de paraules al seu quadre de text per permetre un control extremadament fi de la imatge que esteu produint; això seria una cosa anàloga a Photoshop amb una interfície purament textual. Jo diria que una persona podria utilitzar aquest programa i encara mereixeria que se l’anomenin artista. El director de cinema Bennett Miller ha utilitzat DALL-E 2 per generar unes imatges molt impactants que s’han exposat a la galeria Gagosian; per crear-les, va crear instruccions de text detallades i després va dir a DALL-E que revisés i manipulés les imatges generades una i altra vegada. Va generar més de cent mil imatges per arribar a les vint imatges de l’exposició. Però ha dit que no ha pogut obtenir resultats comparables en versions posteriors de DALL-E. Sospito que això podria ser perquè Miller utilitzava DALL-E per a alguna cosa que no està prevista que faci; és com si piratejés Microsoft Paint perquè es comportés com Photoshop, però tan bon punt es va publicar una nova versió de Paint, els seus hacks van deixar de funcionar. Probablement, OpenAI no està intentant crear un producte que serveixi a usuaris com Miller, perquè un producte que requereixi que un usuari treballi durant mesos per crear una imatge no és atractiu per a un públic ampli. L’empresa vol oferir un producte que generi imatges amb poc esforç.

És més difícil imaginar un programa que, mitjançant moltes sessions, ajudi a escriure una bona novel·la. Aquest hipotètic programa d’escriptura pot requerir que introduïu cent mil paraules d’indicacions per tal que generi cent mil paraules completament diferents que formen la novel·la que esteu imaginant. No tinc clar com seria un programa així. Teòricament, si existís un programa d’aquest tipus, potser l’usuari podria merèixer ser anomenat autor. Però, de nou, no crec que empreses com OpenAI vulguin crear versions de ChatGPT que requereixin tant esforç per part dels usuaris com escriure una novel·la des de zero. El punt de venda de la I.A. generativa és que aquests programes generen molt més del que hi poses, i això és precisament el que impedeix que siguin eines efectives per als artistes.

Les empreses promotores de programes d’IA afirmen que desencadenaran la creativitat. En essència, estan dient que l’art pot ser tot inspiració i no transpiració, però aquestes coses no es poden separar fàcilment. No dic que l’art hagi d’implicar tedi. El que dic és que l’art requereix prendre decisions a totes les escales; les innombrables eleccions a petita escala fetes durant la implementació són tan importants per al producte final com les poques eleccions a gran escala realitzades durant la concepció. És un error equiparar “a gran escala” amb “important” quan es tracta de les eleccions que es fan a l’hora de crear art; la interrelació entre la gran i la petita escala és on rau l’art.

Creure que la inspiració supera tota la resta és, sospito, un signe que algú no està familiaritzat amb el mitjà. Afirmo que això és cert encara que l’objectiu sigui crear entreteniment en lloc d’art elevat. La gent sovint subestima l’esforç necessari per entretenir; Una novel·la de thriller pot no estar a l’altura de l’ideal de llibre de Kafka —una “destral per al mar glaçat que tenim dins”—, però tot i així pot ser tan finament elaborada com un rellotge suís. I un thriller eficaç és més que la seva premissa o la seva trama. Dubto que pugueu substituir cada frase d’un thriller per una que sigui semànticament equivalent i que la novel·la resultant sigui tan entretinguda. Això vol dir que les seves frases, i les opcions a petita escala que representen, ajuden a determinar l’eficàcia del thriller.

Molts novel·listes han tingut l’experiència de ser abordats per algú convençut que té una gran idea per a una novel·la, que estan disposats a compartir a canvi d’un repartiment de cinquanta-cinquanta de les vendes. Una persona així revela sense voler que creu que formular frases és una molèstia més que una part fonamental de la narració en prosa. La IA generativa atreu les persones que creuen que poden expressar-se en un mitjà sense treballar-hi realment. Però els creadors de novel·les, pintures i pel·lícules tradicionals se senten atrets per aquestes formes d’art perquè veuen el potencial expressiu únic que ofereix cada mitjà. És el seu afany per aprofitar al màxim aquestes potencialitats el que fa que la seva feina sigui satisfactòria, ja sigui com a entreteniment o com a art.

Per descomptat, la majoria dels escrits, ja siguin articles, informes o correus electrònics, no s’espera que incloguin milers d’opcions. En aquests casos, hi ha cap mal en automatitzar la tasca? Permeteu-me oferir una altra generalització: qualsevol escrit que mereixi la vostra atenció com a lector és fruit de l’esforç de qui l’ha escrit. L’esforç durant el procés d’escriptura no garanteix que valgui la pena llegir el producte final, però no es pot fer un treball que valgui la pena sense aquest esforç. El tipus d’atenció que presteu a l’hora de llegir un correu electrònic personal és diferent de la que presteu en llegir un informe comercial, però en ambdós casos només es garanteix quan l’escriptor hi posa algun pensament.

Recentment, Google va emetre un anunci durant els Jocs Olímpics de París per a Gemini, el seu competidor del GPT-4 d’OpenAI. L’anunci mostra un pare utilitzant Gemini per redactar una carta d’admiradora, que la seva filla enviarà a un atleta olímpic que l’inspira. Google va retirar l’anunci després de la reacció generalitzada dels espectadors; un professor de mitjans el va anomenar “un dels anuncis més inquietants que he vist mai”. És notable que la gent reaccionés d’aquesta manera, tot i que la creativitat artística no era l’atribut que s’havia suplantat. Ningú espera que la carta d’un nen a un esportista sigui extraordinària; si la jove hagués escrit la carta ella mateixa, probablement hauria estat indistinguible d’innombrables altres. La importància de la carta d’admirador d’un nen, tant per al nen que l’escriu com per a l’esportista que la rep, és que sigui sincera, més que no pas que sigui eloqüent.

Molts de nosaltres hem enviat targetes de felicitació comprades a la botiga, sabent que el destinatari tindrà clar que no hem escrit les paraules nosaltres mateixos. No copiem les paraules d’una targeta Hallmark amb la nostra pròpia lletra, perquè semblaria deshonest. El programador Simon Willison ha descrit la formació per a grans models de llenguatge com “blanqueig de diners per a dades amb drets d’autor”, que trobo una manera útil de pensar en l’atractiu dels prgrames d’IA generativa: permeten participar en una cosa com és el plagi, però no hi ha cap culpa associada perquè ni tan sols veieu clar que esteu copiant.

Alguns han afirmat que els grans models lingüístics no estan blanquejant els textos sobre els quals s’entrenen, sinó que n’aprenen, de la mateixa manera que els escriptors humans aprenen dels llibres que han llegit. Però un gran model de llenguatge no és un escriptor; ni tan sols és un usuari de la llengua. El llenguatge és, per definició, un sistema de comunicació, i requereix una intenció de comunicar-se. L’emplenament automàtic del vostre telèfon pot oferir suggeriments bons o dolents, però en cap dels dos casos no vol dir-vos res ni a la persona a qui esteu enviant missatges. El fet que ChatGPT pugui generar frases coherents ens convida a imaginar que entén el llenguatge d’una manera que l’autocompletació del telèfon no ho fa, però no té pas més intenció de comunicar-se.

És molt fàcil aconseguir que ChatGPT emeti una sèrie de paraules com ara “Estic content de veure’t”. Hi ha moltes coses que no entenem sobre com funcionen els grans models de llenguatge, però una cosa de la qual podem estar segurs és que ChatGPT no està content de veure’t. Un gos pot comunicar que està content de veure’t, i un nen prelingüístic també, tot i que cap dels dos no té la capacitat d’utilitzar paraules. ChatGPT no sent res i no desitja res, i aquesta manca d’intenció és la raó per la qual ChatGPT no utilitza el llenguatge. El que fa que les paraules “m’alegra de veure-te” siguin un enunciat lingüístic no és que la seqüència de fitxes de text que la componen estigui ben formada; el que el converteix en un enunciat lingüístic és la intenció de comunicar alguna cosa.

Com que el llenguatge ens arriba amb tanta facilitat, és fàcil oblidar que es troba al damunt d’aquestes altres experiències de sentiment subjectiu i de voler comunicar aquest sentiment. Tenim la temptació de projectar aquestes experiències en un gran model de llenguatge quan emet frases coherents, però fer-ho és caure en el mimetisme; és el mateix fenomen que quan les papallones desenvolupen grans taques fosques a les ales que poden enganyar els ocells fent-los pensar que són depredadors amb ulls grans. Hi ha un context en què les taques fosques són suficients; és menys probable que els ocells mengin una papallona que en tingui, i a la papallona no li importa realment per què no se l’han menjat, sempre que li serveixi per sobreviure. Però hi ha una gran diferència entre una papallona i un depredador que suposa una amenaça per a un ocell.

Una persona que utilitza IA generativa per ajudar-los a escriure podria afirmar que s’estan inspirant en els textos en què es va formar el model, però jo tornaria a argumentar que això és diferent del que ens referim normalment quan diem que un escriptor s’inspira en un altre. Penseu en un estudiant universitari que entrega un article que consisteix únicament en una cita de cinc pàgines d’un llibre, afirmant que aquesta cita transmet exactament el que ella volia dir, millor del que podria dir-ho ella mateixa. Fins i tot si l’estudiant és completament sincer amb el professor sobre el que ha fet, no és correcte dir que s’està inspirant en el llibre que cita. El fet que un gran model de llenguatge pugui reformular la cita prou perquè la font no sigui identificable no canvia la naturalesa fonamental del que està passant.

Com ha assenyalat la lingüista Emily M. Bender, els professors no demanen als estudiants que escriguin assajos perquè el món necessiti més assajos dels estudiants. L’objectiu d’escriure assajos és enfortir les habilitats de pensament crític dels estudiants; de la mateixa manera que l’aixecament de peses és útil independentment de l’esport que practiqui l’esportista, l’escriptura d’assaigs desenvolupa les habilitats necessàries per a qualsevol feina que obtindrà en el futur un estudiant universitari. Utilitzar ChatGPT per completar les tasques és com portar un carretó elevador a la sala de peses; mai milloraràs la teva bona forma cognitiva d’aquesta manera.

No tota l’escriptura ha de ser creativa, ni sincera, ni tan sols especialment bona; de vegades simplement ha d’existir. Aquesta escriptura pot donar suport a altres objectius, com ara atraure visualitzacions per a la publicitat o satisfer requisits burocràtics. Quan la gent ha de produir aquest text, difícilment podem culpar-los d’utilitzar qualsevol eina disponible per accelerar el procés. Però, el món està millor amb més documents que s’han fet amb un esforç mínim? No seria realista afirmar que si ens neguem a utilitzar grans models lingüístics, desapareixeran els requisits per crear textos de baixa qualitat. Tanmateix, crec que és inevitable que com més utilitzem grans models lingüístics per complir aquests requisits, més grans seran aquests requisits. Estem entrant en una era en què algú podria utilitzar un gran model de llenguatge per generar un document a partir d’una llista de punts i enviar-lo a una persona que utilitzarà un model d’idioma gran per condensar aquest document en una llista de punts. Algú pot argumentar seriosament que això és una millora?

No és impossible que algun dia tinguem programes informàtics que puguin fer qualsevol cosa que un ésser humà pot fer, però, contràriament a les afirmacions de les empreses que promouen la IA, això no és una cosa que veurem en els propers anys. Fins i tot en dominis que no tenen absolutament res a veure amb la creativitat, els actuals programes d’IA tenen profundes limitacions que ens donen raons legítimes per qüestionar-se si mereixen ser anomenats intel·ligents.

L’informàtic François Chollet ha proposat la distinció següent: l’habilitat és com de bé es fa en una tasca, mentre que la intel·ligència és l’eficiència amb què s’adquireixen noves habilitats. Crec que això reflecteix bastant bé les nostres intuïcions sobre els éssers humans. La majoria de la gent pot aprendre una nova habilitat si hi ha prou pràctica, però com més ràpid l’adquireix la persona, més intel·ligent pensem que és. El que és interessant d’aquesta definició és que, a diferència de les proves de QI: també és aplicable a entitats no humanes; quan un gos aprèn un nou truc ràpidament, ho considerem un signe d’intel·ligència.

El 2019, uns investigadors van realitzar un experiment en què van ensenyar a les rates a conduir. Van posar les rates en petits recipients de plàstic amb tres barres de filferro de coure; quan els ratolins posaven les potes en una d’aquestes barres, el contenidor o bé avançava, o bé girava a l’esquerra, o bé girava a la dreta. Les rates podien veure un plat de menjar a l’altre costat de la sala i provavenr que els seus vehicles anessin cap a ell. Els investigadors van entrenar les rates durant cinc minuts alhora, i després de vint-i-quatre sessions de pràctica, les rates havien esdevingut capaces de conduir. Vint-i-quatre assaigs van ser suficients per dominar una tasca que probablement cap rata s’havia trobat abans en la història evolutiva de l’espècie. Crec que és una bona demostració d’intel·ligència.

Ara considereu programes d’IA actuals àmpliament reconeguts pel seu rendiment. AlphaZero, un programa desenvolupat per DeepMind de Google, juga als escacs millor que qualsevol jugador humà, però durant el seu entrenament va jugar quaranta-quatre milions de partides, molt més del que qualsevol humà pot jugar en tota la vida. Perquè pugui dominar un joc nou, haurà de sotmetre’s a una quantitat d’entrenament igualment enorme. Segons la definició de Chollet, programes com AlphaZero són altament habils, però no són especialment intel·ligents, perquè no són eficients per adquirir noves habilitats. Actualment és impossible escriure un programa informàtic capaç d’aprendre fins i tot una tasca senzilla en només vint-i-quatre proves, si el programador no rep informació prèviament sobre la tasca.

Els cotxes autònoms entrenats en milions de quilòmetres de conducció encara poden xocar contra un camió remolc bolcat, perquè aquestes coses no es troben habitualment a les seves dades d’entrenament, mentre que els humans que prenen la seva primera classe de conducció sabran aturar-se. Més que la nostra capacitat de resoldre equacions algebraiques, la nostra capacitat de fer front a situacions desconegudes és una part fonamental de per què considerem que els humans són intel·ligents. Els ordinadors no podran substituir els humans fins que no adquireixin aquest tipus de competència, i això encara queda molt lluny; de moment, només busquem feines que es puguin fer amb l’autocompletar turboalimentat.

Malgrat anys de bombo, la capacitat de la IA generativa d’augmentar dràsticament la productivitat econòmica continua sent teòrica. (A principis de 2024, Goldman Sachs va publicar un informe titulat “Gen AI: Too Much Spend, Too Little Benefit?” -IA Generativa: massa inversió, massa poc benefici-) La tasca en la qual la IA generativa ha tingut més èxit és reduir les nostres expectatives, tant de les coses que llegim com de nosaltres mateixos quan escrivim qualsevol cosa que els altres puguin llegir. És una tecnologia fonamentalment deshumanitzadora perquè ens tracta com menys del que som: creadors i aprehensors de significat. Redueix la quantitat d’intencions al món.

Alguns individus han defensat els grans models de llenguatge dient que la majoria del que diuen o escriuen els éssers humans no és especialment original. Això és cert, però també és irrellevant. Quan algú et diu “ho sento”, no importa que altres persones hagin dit perdó en el passat; no importa que “ho sento” sigui una cadena de text que estadísticament no és remarcable. Si algú està sent sincer, la seva disculpa és valuosa i significativa, tot i que prèviament s’hagin pronunciat disculpes. De la mateixa manera, quan dius a algú que estàs content de veure’l, estàs dient alguna cosa significativa, encara que no tingui novetat.

Una cosa semblant és certa per a l’art. Tant si estàs creant una novel·la, un quadre o una pel·lícula, estàs compromès en un acte de comunicació entre tu i el teu públic. El que crees no ha de ser completament diferent a totes les obres d’art anteriors de la història de la humanitat per ser valuós; el fet que siguis tu qui ho digui, el fet que derivi de la teva experiència vital única i arribi en un moment concret de la vida de qui està veient la teva obra, és el que la fa nova. Tots som productes del que hi ha hagut abans, però és vivint la nostra vida en interacció amb els altres que donem sentit al món. Això és una cosa que un algorisme d’autocompletar mai no pot fer, i no deixeu que ningú us digui el contrari.

\ *Ted Chiang, és l’autor de dues col·leccions de contes de ciència-ficció, “Història de la teva vida i altres contes” i “Exhalació”, publicades també en català. Guanyador dels premis Hugo i Nebula, també és programador. Traducció: Martí, per L’Accent.