Perché l’intelligenza artificiale non può fare arte
Roald Dahl nel 1953 pubblicò The Great Automatic Grammatizator, un racconto breve su un ingegnere che aveva il sogno di diventare uno scrittore. Un giorno, dopo aver finito di costruire la macchina calcolatrice più veloce del mondo, l'ingegnere si rende conto che "la grammatica inglese è governata da regole che sono quasi matematiche nella loro severità". Così decide di costruire una macchina per scrivere narrativa in grado di produrre un racconto breve di cinquemila parole in trenta secondi; per scrivere un romanzo impiega quindici minuti e richiede all'operatore di manipolare maniglie e pedali, come se stesse guidando un'auto. Il risultato è un’ampia gamma di romanzi diventati così popolari che, nel giro di un anno, metà della narrativa pubblicata in inglese è un prodotto dell'invenzione dell'ingegnere.
Alla luce dei fatti e degli sviluppi tecnologici che caratterizzano il presente, è facile pensare che Roald Dahl ci avesse visto lungo e che, in un certo senso, avesse predetto l’intelligenza artificiale generativa. O comunque avesse previsto che un giorno l’arte sarebbe potuta essere creata con il semplice gesto di premere un pulsante.
Anche se, al momento, la finzione generata da ChatGPT è piuttosto scadente, questi programmi potrebbero migliorare in futuro? E se sì, quanto? Potrebbero diventare più bravi degli umani nello scrivere narrativa o nel realizzare dipinti o film?
L'arte si sa, è difficile da definire, tanto che quasi non esiste una differenza tra buona e cattiva arte. Questo perché l'arte è qualcosa di soggettivo, che deriva dal prendere delle scelte. Se si pensa ad esempio alla scrittura, quando si scrive un testo o un romanzo, si compie una scelta su ogni singola parola che si digita. Quindi, se l'IA genera una storia di diecimila parole basata su un suggerimento, deve sostituire tutte le scelte che non si stanno facendo. Ci sono vari modi in cui può farlo: uno è prendere una media delle scelte che altri scrittori hanno fatto; un altro è istruire il programma a impegnarsi nell'imitazione dello stile, emulando le scelte fatte da uno scrittore specifico, il che produce una storia altamente derivativa. In nessuno dei due casi si sta creando arte in qualche modo unica o interessante.
Lo stesso principio si può applicare alla sfera dell'arte visiva, nonostante sia più difficile quantificare le scelte che un pittore potrebbe fare. I dipinti veri nascondono dietro un numero enorme di decisioni. In confronto, una persona che usa un programma di conversione testo-immagine come DALL-E inserisce un prompt come "Un cavaliere con l’armatura combatte contro un drago" e lascia che il programma faccia tutto il resto. La versione più recente di DALL-E accetta prompt fino a quattromila caratteri, centinaia di parole, ma non abbastanza per descrivere ogni dettaglio di una scena. La maggior parte delle scelte prese per generare l'immagine deve perciò essere presa in prestito da dipinti simili e preesistenti trovati online.
Alcuni esperti prevedono che i generatori di immagini influenzeranno la cultura visiva contemporanea. Prendendo sempre come esempio DALL-E, gli utenti di X, Facebook e Instagram si stanno sbizzarrendo creando immagini a computer a partire da qualsiasi testo, anche il più bislacco. A detta di OpenAI, lo scopo di questo progetto è quello di “rendere l’intelligenza artificiale un beneficio per l’umanità” e, a quanto pare, il miglior modo per promuovere queste innovazioni è di metterle al servizio della comunità online per generare meme di ogni genere.
Ma cosa succede se questo tipo di AI viene utilizzata per creare arte alta invece che intrattenimento? Il regista Bennett Miller ha utilizzato DALL-E 2 per generare delle immagini molto particolari che sono state esposte alla galleria Gagosian. Per crearle, ha elaborato prompt di testo dettagliati e poi ha incaricato DALL-E di rivedere e manipolare le immagini generate più e più volte. Così facendo, ha generato più di centomila immagini per arrivare alle venti immagini esposte nella mostra. Ma ha affermato di non essere stato in grado di ottenere risultati comparabili nelle versioni successive di DALL-E. Forse perché Miller stava utilizzando DALL-E per qualcosa che non è programmato a fare: OpenAI non sta cercando di creare un prodotto per servire utenti come Miller, perché un prodotto che richiede a un utente di lavorare per mesi per creare un'immagine non è attraente per un pubblico di massa. L'azienda, piuttosto, vuole offrire un prodotto che generi immagini con pochissimo sforzo.
Le aziende che promuovono programmi di intelligenza artificiale generativa affermano che scateneranno la creatività. In altre parole, affermano che l'arte può essere tutta ispirazione e niente sudore. Ed è per questo che l'intelligenza artificiale generativa attrae persone che pensano di potersi esprimere in un mezzo senza effettivamente lavorarci. Ma l’ispirazione e la fatica che si impiegano per realizzare un’opera sono cose che non possono essere separate, proprio perché l'arte richiede di compiere scelte a ogni livello. I creatori di romanzi, dipinti e film tradizionali sono attratti dalle forme d'arte perché vedono il potenziale espressivo che ogni mezzo offre. È la loro voglia di sfruttare appieno quelle potenzialità che rende il loro lavoro soddisfacente. Sotto questo punto di vista allora l’AI è una tecnologia fondamentalmente disumanizzante perché tratta gli esseri umani come meno di quello che sono, ossia creatori di significato.
Di recente, Google ha trasmesso uno spot pubblicitario durante le Olimpiadi di Parigi per Gemini, il concorrente di GPT-4 di OpenAI. Lo spot mostra un padre che usa Gemini per scrivere una lettera da fan, che sua figlia invierà a un'atleta olimpica. Google ha ritirato lo spot dopo le innumerevoli reazioni negative degli spettatori. Un professore di media lo ha definito "uno degli spot pubblicitari più inquietanti che abbia mai visto". Le persone hanno reagito in questo modo perché nessuno si aspetta che la lettera di un bambino a un atleta sia straordinaria; ma il significato della lettera a un fan di un bambino, sia per il bambino che la scrive sia per l'atleta che la riceve, deriva dal fatto che perlomeno è qualcosa di sentito.
Alcuni hanno sostenuto che i grandi modelli linguistici non stanno riciclando i testi su cui sono stati formati, ma piuttosto imparano da essi, nello stesso modo in cui gli scrittori umani imparano dai libri. Ma un modello linguistico non è uno scrittore; non è nemmeno un utente del linguaggio. Il linguaggio è, per definizione, un sistema di comunicazione che richiede un'intenzione di comunicare. Il fatto che ChatGPT possa generare frasi coerenti ci porta a immaginare che capisca il linguaggio, ma non ha una reale intenzione di comunicare. Ad esempio, è molto facile far sì che ChatGPT emetta una serie di parole come "Sono felice di vederti". Ci sono molte cose che non si capiscono su come funzionano i grandi modelli linguistici, ma una cosa è certa: ChatGPT non è felice di vederti. ChatGPT non sente e non desidera nulla, e questa mancanza di intenzione è il motivo per cui ChatGPT non sta effettivamente usando il linguaggio.
Non è impossibile che un giorno esisteranno programmi per computer in grado di fare tutto ciò che un essere umano può fare, ma, contrariamente alle affermazioni delle aziende che promuovono l'IA, non è qualcosa che vedremo nei prossimi anni, soprattutto se si tratta di arte e creatività.
Alcuni difendono i grandi modelli linguistici affermando che la maggior parte di ciò che gli esseri umani dicono o scrivono non è particolarmente originale. Ma che si stia creando un romanzo o un dipinto, si è pur sempre impegnati in un atto di comunicazione tra il creativo e il pubblico. Ciò che si crea non deve essere completamente diverso da ogni precedente opera d'arte nella storia per essere davvero unico e prezioso, ma piuttosto è il fatto che derivi da un’esperienza di vita unica. È questo ciò che lo rende nuovo e irripetibile. Siamo tutti prodotti di ciò che è venuto prima di noi, ma è avendo interazioni con gli altri che si porta significato nel mondo. Questa è una cosa che un algoritmo non potrà mai fare.