Sono passati solo sei mesi da quando ChatGPT e le sue emule – stiamo parlando di chat, chiacchere, sostantivo di genere femminile – sono improvvisamente apparse nelle nostre vite, con l’intenzione di restarci a lungo.
Tutti coloro che hanno avuto una conversazione con questi algoritmi sono rimasti stupiti per la facilità con cui si può intrattenere un dialogo gradevole sugli argomenti più disparati, in una qualsiasi lingua, riuscendo anche, su richiesta, ad imitare lo stile di uno scrittore. Le risposte sono perfettamente sensate, costruite correttamente e centrano il senso della domanda. Allo stesso tempo ci si è resi conto di come, di tanto in tanto, questo algoritmo abbia delle “allucinazioni” e si inventi di sana pianta delle risposte totalmente false, caratteristica meno presente con la versione 4 rispetto alla versione 3.5.
Insomma ci siamo trovati di fronte ad un’interfaccia che sembra proprio comportarsi come un essere umano, con la differenza che le sue risposte coprono una sterminata quantità di temi come nessun essere umano è in grado di fare. Dopo la sorpresa iniziale, in molti si sono chiesti quali sono le reali capacità e i limiti di questa tecnologia. Come può aiutarci ad affrontare i complessi problemi della contemporaneità, come ad esempio quelli legati al mondo della medicina e della biologia e, allo stesso tempo, quali siano i pericoli nascosti dietro questi algoritmi, a partire dalla perdita di un gran numero di posti di lavoro fino a minacciosi scenari di Intelligenza Artificiale senziente in grado di prendere il controllo dell’umanità e del suo destino.
Essendo questa tecnologia basata sulla capacità dialogare in linguaggio naturale, essa ha immediate ripercussioni sul modo con cui interagiamo con il resto del mondo. Questa straordinaria facilità di interfaccia è però illusoria e mimetica: per potere correttamente mettere a fuoco di cosa veramente si tratti dobbiamo prendere le distanze e capire la logica che sta dietro a questo tipo di Intelligenza Artificiale. È un po’ quello che accade quando siamo ad uno spettacolo di magia: fino che siamo nelle condizioni desiderate dal mago è praticamente impossibile capire su cosa si basa il trucco. Occorre cambiare il punto di vista per capire quanto banale ma allo stesso tempo straordinario sia il procedimento inventato dal mago per garantire l’effetto voluto.
ChatGPT è quello che si chiama un modello un Grande Modello di Linguaggio (LLM). Un LLM ha a che fare più con il calcolo delle probabilità che con la sintassi o con la grammatica: si tratta di fatto di una serie di numeri che caratterizzano le probabilità di sequenze di parole. Esistono decine di LLM ed il loro sviluppo è tutt’altro che una scienza esatta.
Una proprietà caratteristica di questi modelli è la comparsa di abilità linguistiche che diventano sempre migliori in funzione della crescita delle dimensioni del modello stesso. Questo è uno dei motivi per cui assistiamo alla crescita del numero di parametri che compongono i modelli stessi, da ben 175 miliardi per ChatGPT 3.5 a più di 340 miliardi di ChatGPT 4. Per valutare questi numeri enormi, occorre considerare che il numero di parole presenti nel web si stima essere dell’ordine di 100 mila miliardi, “solo” 300 volte il numero di parametri di questi LLM. Questi numeri dovrebbero farci intuire il nocciolo della questione: i LLM non potrebbero esistere senza il gigantesco accumulo di testi presenti nel web, testi scritti tutti da esseri umani, nelle varie lingue, ma sempre dotati di senso in quanto il web è stato inventato per comunicare e nessuno passa il suo tempo a mettere nel web frasi senza senso.
Partiamo da un esempio molto semplice. Non è difficile programmare un computer per creare una stringa mettendo lettere una dopo l’altra secondo la probabilità derivata da un corpus di testi in italiano. Potremmo ottenere la stringa:
“egjbpdiffhdaosdfvjsawodhgasduihbvaoòeirjfsd”
ovviamente senza senso. Introduciamo ora punteggiature e spazi, anch’essi ricavati da un criterio di probabilità caratteristico dell’italiano:
“egjb pdiffh daos dfvjsaw od. hgasduih bv aoòei! Rjfsd”
Continuiamo facendo lo stesso con le coppie di lettere. Ad esempio, se abbiamo 24 lettere dell’alfabeto, più lo spazio bianco, abbiamo 252 = 625 combinazioni e possiamo costruire una matrice di 625×625 caselle che definisce la probabilità che una certa lettera sia seguita da un’altra lettera, nel corpus di scritti in lingua italiana. Potremmo ottenere la sequenza:
“adel ove prates. Casa festavol compatto. Semina e remasi”
Certamente si tratta di un testo incomprensibile, ma sembrano emergere delle “parole” intellegibili e delle “frasi”. Continuiamo facendo lo stesso con le coppie di parole adiacenti: un “vocabolario” completo della lingua italiana può contenere 250.000 parole, ma ne bastano 50.000 per gestire la stragrande parte delle frasi presenti nel web. 50.000 al quadrato fa due miliardi e cinquecento milioni, un numero enorme per un essere umano ma gestibile da un computer che, analizzando pazientemente le pagine del web in italiano, può misurare la frequenza delle coppie di parole e usarle per creare delle frasi. Comincia ad emergere a questo punto la capacità, parola dopo parola, di costruire frasi, che appaiono “per definizione” molto naturali. Già con questo limitato livello di complessità algoritmica alla domanda “Chi è Albert Einstein?” potremmo ricevere la seguente risposta, sensata e sintatticamente accettabile:
“Albert Einstein è nato nel 1879 a Ulma. E’ considerato il più grande scienziato del ‘900.”
Potrei continuare con questo esempio per farvi capire come il raffinamento di queste tecniche algoritmiche possa adattarsi sempre più alla produzione di risposte complesse, specie se la domanda che viene posta è particolarmente dettagliata e precisa. Ma la domanda che vi sarà venuta in mente è: dov’è l’intelligenza di ChatGPT? Non a caso questi algoritmi vengono anche chiamati “Pappagalli digitali”: solo ispirandosi a quello che l’umanità ha già scritto essi sono in grado di produrre altre frasi sensate. L’utente che interroga ChatGPT si sta rispecchiando una miriade di specchi che rappresentano una umanità multiforme, ricavandone risposte non banali (ChatGPT aborrisce il copia-incolla), che comunque sono profondamente impregnate da cultura, bias, errori di coloro che contribuiscono allo sviluppo del WWW.
Messo a fuoco con che cosa abbiamo a che fare, capiamo allora come ChatGPT abbia l’intelligenza di una scatola da scarpe. Ma allora come mai questa tecnologia si sta diffondendo così rapidamente? Questa vorticoso sviluppo è dovuto al fatto che una grandissima parte delle cose che facciamo è la ripetizione di cose già fatte o scritte da noi o da altri. Dal nostro punto di vista individuale, non ce ne rendiamo conto, ma visto dal punto di vista del WWW questo appare con tutta l’evidenza possibile grazie proprio a questi algoritmi.
E questo è un punto non da poco. Anche se l’AI di ChatGPT è una forma di intelligenza artificiale “debole”, capace cioè solo di gestire grandi quantità di dati, non per questo gli effetti non sono dirompenti, perché l’interfaccia del linguaggio naturale è un passo avanti sostanziale nell’interazione uomo macchina.
L’uso di ChatGPT 4.0 sta ad esempio ridisegnando il settore delle scienze biologiche, caratterizzato dalla presenza di un enorme quantità di dati. Si stanno aprendo nuove strade di ricerca nello sviluppo di farmaci, nella diagnosi medica e nella medicina personalizzata, grazie alla sua capacità di generare risposte in linguaggio naturale che replicano la conversazione umana.
L’impatto nelle scienze della vita, in particolare nella bioinformatica, la diagnosi medica e la ricerca di farmaci è notevolissimo. L’algoritmo può aiutare i ricercatori e i medici a comprendere e gestire meglio dati diagnostici complicati, ad aumentare l’accuratezza diagnostica e ad accelerare i processi di scoperta dei farmaci, analizzando enormi quantità di dati e generando risposte simili a quelle umane.
Ad esempio, l’industria farmaceutica è sempre dipesa da tentativi ed errori per identificare nuovi trattamenti, un processo costoso in termini di tempo e di denaro.
ChatGPT può assistere i ricercatori nell’analisi di grandi serie di dati scoprendo nuovi bersagli terapeutici, così come può suggerire nuovi composti chimici e anticiparne le proprietà.
Una recente analisi di McKinsey, afferma che i modelli di IA hanno il potenziale per accelerare la scoperta di farmaci fino al 50% e ridurre i costi di sviluppo fino al 25%.
Uno studio pubblicato su Nature ha rivelato la potenza di questi modelli nel prevedere i risultati delle reazioni chimiche. Per pianificare le sintesi chimiche organiche, i ricercatori hanno utilizzato una combinazione di reti neurali profonde, su cui è basato ChatGPT, e una IA simbolica, in grado di sviluppare ragionamenti simbolici complessi. Il modello risultante ha previsto le reazioni con buona precisione e ha identificato nuove reazioni non precedentemente descritte in letteratura.
ChatGPT ha applicazioni mediche nell’analisi dei dati dei pazienti e nella generazione di diagnosi differenziali sulla base dei sintomi.
Un recente studio, pubblicato su JAMA Internal Medicine, mostra come un algoritmo basato su GPT è stato in grado di identificare efficacemente i pazienti con insufficienza cardiaca dalle cartelle cliniche elettroniche, con una sensibilità del 94,8% e una specificità del 92,4%.
I ricercatori della Drexel University’s School of Biomedical Engineering, Science, and Health Systems hanno invece dimostrato come l’algoritmo possa prevedere la malattia di Alzheimer allo stadio iniziale con un’accuratezza dell’80% analizzando il testo parlato spontaneo dei pazienti.
Ma è forse nel campo della medicina personalizzata che la capacità di ChatGPT di valutare insiemi di dati complessi e sviluppare piani di trattamento personalizzati ha il potenziale per rivoluzionare l’attuale stato dell’arte.
Con ChatGPT potrebbe essere più semplice scoprire differenze genetiche associate a specifiche malattie o risposte ai farmaci analizzando enormi volumi di dati dei pazienti e quindi generare raccomandazioni terapeutiche personalizzate sulla base di queste conoscenze.
Quelli riportati sono solo alcuni esempi di come l’impatto potenziale di ChatGPT sul settore delle scienze della vita sia immenso. Tuttavia, per abbracciare pienamente la tecnologia digitale di ChatGPT, sono necessari investimenti nella gestione dei dati, nelle infrastrutture e nella formazione di talenti sia di ricercatori che di medici. Le aziende farmaceutiche ed i sistemi educativi che investiranno in queste aree saranno i meglio posizionati per rimanere all’avanguardia nel mondo in rapida evoluzione delle scienze mediche e biologiche.