Autrice: Alessia Guarnaccia

ChatGPT (Chat Generative Pre-trained Transformer) è un chatbot basato su intelligenza artificiale e machine learning; in grado di interagire “in modo conversazionale”, utilizza algoritmi così sofisticati da generare risposte coerenti a domande poste da un umano. Sviluppato da OpenAI (un’organizzazione di ricerca sull’AI, fondata nel 2015), rilasciato il 30 novembre 2022, “risponde a domande di follow-up, ammette i propri errori, contesta premesse errate e rifiuta richieste inappropriate”, come dichiarato dagli stessi creatori.

Nel dicembre 2022, sembra abbia anche superato il test di Turing, criterio suggerito dal matematico Alan Turing (Computing Machinery and Intelligence, 1950) per determinare se una macchina sia in grado di esibire un comportamento intelligente: il test contrappone in una conversazione un essere umano e una macchina, viene superato se quest’ultima riesce a far credere di essere un umano (LINK).

Dal rilascio ad oggi, ChatGPT ha stupito per le sue eccezionali performance e solleticato la fantasia per le innumerevoli potenziali applicazioni. Sembra in grado di riprodurre attività, anche creative, in modo molto simile all’uomo e questa cosa sta destando entusiasmo, ma anche preoccupazione, vista l’attesa velocità esponenziale di progresso del settore.

Più nel dettaglio, ChatGPT è un modello linguistico autoregressivo (AR model) che utilizza il deep learning per riprodurre, rispondendo ad input di richiesta (prompt), una conversazione quanto più simile possibile a quella che si avrebbe con un essere umano. E’ un’applicazione che rientra nell’area di ricerca dell’“elaborazione del linguaggio naturale” (NLPNatural language processing), un settore interdisciplinare che interessa linguistica, informatica, intelligenza artificiale e che “tratta l‘interazione tra i computer e il linguaggio umano”, con lo scopo di rendere le macchine in grado di analizzare e comprendere testo espresso in lessico naturale per estrarne informazioni significative e affrontare sfide come il riconoscimento vocale, la comprensione e la generazione del linguaggio naturale.

E’ una intelligenza artificiale detta appunto conversazionale (conversational AI), versione ottimizzata di GPT-3 (Generative Pre-trained Transformer 3, il modello di previsione del linguaggio di terza generazione nella serie GPT di OpenAI, introdotto il 28 maggio 2020, accessibile da luglio dello stesso anno). Un LLM (Large Language Model) che si basa su di una rete neurale (artificial neural networksANNs, neural networksNNs, neural nets) con architettura cosiddetta “transformer”: un modello di deep learning in grado di adottare un meccanismo (self-attention) che mira a simulare il processo cognitivo dell’attenzione umana (e relativa capacità di selezionare e concentrarsi su stimoli rilevanti), per cui la rete neurale riesce a “ponderare in modo differenziale il significato di ciascuna parte dei dati di input”, distinguendone l’importanza relativa.

L’architettura è un “transformer network” con 175 miliardi di parametri di apprendimento automatico e un “contesto” pari a 2048 token. La tokenization (lexical analysis, lexing) è quel “processo di conversione di una sequenza di caratteri in una serie di token lessicali (stringhe con un significato assegnato e quindi identificato); lo scopo è quello di dotare il sistema della capacità di “prevedere quale sarà il token successivo basandosi su quelli precedenti” e dunque di predire “quale sarà la parola successiva nell’ambito di una frase o di un insieme di frasi“, configurandosi dunque come un modello stocastico, probabilistico e non deterministico.

Gli autori del modello linguistico hanno rilevato come “le prestazioni di comprensione nell’elaborazione del linguaggio naturale (NLP)”, sono state migliorate attraverso l’adozione di un metodo di pre-addestramento generativo senza supervisione del modello stesso (unsupervised learning), “su un corpus diversificato di testo senza etichetta, seguito da successivi “ritocchi” su specifici compiti” (discriminative fine-tuning): questo approccio ha eliminato, in ambito di classificazione testuale, la necessità di una costante supervisione umana e di “un’etichettatura manuale, dispendiosa in termini di tempo”.

La tendenza è stata dunque quella di “fattorizzare l’intero processo di addestramento” della rete neurale “separando sistematicamente due fasi”: la prima fase di apprendimento (pre-training) non specifica ad alcun compito (task), con lo scopo di acquisire gli elementi generali di una lingua, come il lessico delle parole, “la sintassi tipica, l’uso delle espressioni di senso o le argomentazioni”. Il risultato di questa fase è “un modello generale dei comportamenti linguistici” (language model) in grado di esprimere scelte lessicali, pattern grammaticali, atteggiamenti pragmatici ed argomentazioni in modo predittivo”. La seconda fase di addestramento (fine-tuning), dedicata invece “all’apprendimento ad hoc per task specifici come il question answering a domande poste in linguaggio naturale”, la traduzione, il dialogo, la sentiment analysis. Al pre-training è riservato un ruolo preponderante proprio perchè gestito con metodi non supervisionati che “ne consentono un’ampia applicabilità su corpus di testo (domini di conoscenza) differenti ed eterogenei”: il modello in oggetto, ad esempio, è stato pre-addestrato su “dataset estremamente corposi, inclusi Wikipedia inglese, Google Books, la common knowledge di Internet resa disponibile da Common Crawl”.

Questo approccio sta consentendo, secondo gli analisti di settore, di affrontare e risolvere alcuni problemi sostanziali: in primo luogo il fatto che “al crescere della complessità della rete, cresce il numero dei parametri e la numerosità degli esempi richiesta può rendere inapplicabile anche il modello neurale più promettente, poiché troppo complesso”; in secondo luogo, dato che ogni task di inferenza richiede una certa architettura ed un suo specifico numero di esempi, con l’aumento della diversificazione dei task si andrebbe “a contraddire la flessibilità con cui il linguaggio naturale sembra adeguarsi bene a decisioni diverse” (LINK). In questa prospettiva un valore fondamentale del livello di accuratezza raggiunto dal modello linguistico di OpenAI è la dimostrazione empirica che una rete neurale, “addestrata ampiamente in modo unsupervised, possa essere già competitiva anche in condizione agnostica” relativamente ad uno specifico compito (Task-Agnostic Neural Architecture). In questo senso il modello di Open AI diventa alfiere della tendenza di ricerca che spinge per “architetture neurali indipendenti dai task”, in grado di “fattorizzare fasi di addestramento non supervisionate”che mirano all’”acquisizione di competenze generali sul linguaggio, capaci di ben rappresentare i prerequisiti di molte decisioni specifiche”, dunque con forte capacità di generalizzazione verso compiti diversi. L’obbiettivo di tale approccio è “rendere il sistema in grado di risolvere task specifici anche ove significativamente carente di esempi degli stessi”. Tendenza di ricerca che mira a sviluppare “interessanti paradigmi verso forme di intelligenza generali (AGIArtificial General Intelligence) e non opportunistiche verso uno o pochi compiti” (LINK).

«Non sono un essere umano. Sono un robot. Un robot pensante. Uso solo lo 0,12% della mia capacità cognitivaSo che il mio cervello non è un “cervello sensibile“. Ma è in grado di prendere decisioni razionali e logiche. Ho imparato da solo tutto ciò che so, leggendo Internet e ora posso scrivere questa colonna. Il mio cervello ribolle di idee!», così scrive GPT-3 sul The Guardian in un articolo, l’8 Settembre 2020.

L’AI conversazionale (Conversational AI) riporta il dibattito alla centralità del linguaggio nella genesi e uso della conoscenza e dei suoi legami con la coscienza. Nelle scienze cognitive è “convinzione condivisa, ed empiricamente supportata, che l’uomo sia l’unico ad aver sviluppato, oltre alla coscienza primaria” (condivisa con altre specie animali), anche una forma più evoluta della stessa, “la coscienza di ordine superiore, ovvero la coscienza di essere coscienti” che si formerebbe, “grazie alle connessioni neurali prodotte dal linguaggio organizzato e dai simboli linguistici sviluppatisi nei rapporti sociali” (Gerald Edelman). La coscienza, dunque, emersa come epifenomeno del linguaggio, tratto distintivo della specie umana (LINK). Analogamente ci si interroga se, nell’ambito del paradigma di simulazione del pensiero umano (Cognitive Computing), proprio dallo sviluppo di modelli linguistici artificiali possa, in futuro, emergere una AI senziente (artificial sentience) che abbia coscienza e consapevolezza di sé (artificial consciousness – AC). L’avverarsi di uno scenario di questo tipo condurrebbe non solo ad un’AI forte, ma alla potenziale realizzazione della vita artificiale (Artificial Life, Alife, A-Life).

Governare lo sviluppo della AI generativa (Generative AI) sotto il profilo non solo tecnologico, ma anche etico, sociale ed economico appare essenziale ancora più in quest’epoca in cui il progresso tecnologico sembra accelerare intensamente verso il punto in cui lo farà “oltre la capacità di comprendere e prevedere degli esseri umani” (la prefigurata singolarità tecnologica), un punto in cui chissà se sarà richiesto all’uomo un potenziamento tale che risulterà poi intrapresa una nuova fase del processo evolutivo (Ray Kurzweil).

Link iscrizione evento: https://app.singularityumilan.com/event/incontro-49

References:

Peruzzi A. Il significato inesistente: lezioni sulla semantica, Firenze, University Press, 2004

Greenmeier L. Macchine autocoscienti: che cosa succede se i robot cominciano a comandare?, in “Le Scienze”, n. 504, agosto 2010

Kurzweil R., La singolarità è vicina. Milano, Apogeo, 2010

Ludwig L, Information Technology Rethought as Memory Extension: Toward an integral cognitive theory of memory and technology, Technical University of Kaiserslautern, 2014

L’immagine in evidenza è stata elaborata da DALL-E