Il feedback umano nel Machine Learning è indispensabile?
Oggi viviamo in un'epoca in cui l'intelligenza artificiale (AI) sta diventando sempre più presente nella nostra vita quotidiana. Dagli assistenti vocali come Siri, Alexa e Google fino ad auto, treni e droni a guida autonoma, l'AI sta trasformando il modo in cui interagiamo con il mondo intorno a noi. Ma cosa succederebbe se il machine learning - la tecnologia fondamentale su cui si basa - fosse lasciato a se stesso senza alcun tipo di input umano?
Prima di rispondere a questa domanda, è importante comprendere cosa sia il machine learning e come funzioni. In modo sommario, il machine learning è un insieme di tecniche di programmazione che permettono ai computer di apprendere attraverso un "esperienza" (per usare un termine umano), invece di essere programmati esplicitamente. Questo viene fatto attraverso l'utilizzo di algoritmi che analizzano grandi quantità di dati e rilevano modelli, tendenze e statistiche. Di conseguenza, è possibile utilizzare queste informazioni per fare previsioni e prendere decisioni automatiche.
Il machine learning si divide in due categorie: supervised learning (apprendimento supervisionato o "con supervisione") e unsupervised learning (ovvero senza supervisione o "non supervisionato").
Nell'apprendimento supervisionato, gli algoritmi ricevono un input umano sotto forma di "etichette" o "tag". In pratica, si tratta di dati che descrivono il contenuto di un'immagine, di un testo o di un altro tipo di dato. Ad esempio, in una foto di un cane, l'etichetta o tag potrebbe essere "cane". Questi "marcatori" sono inseriti dalla programmazione umana per rendere più facile all'algoritmo del machine learning capire l'informazione contenuta in un dato. Nell'apprendimento supervisionato appunto, gli algoritmi analizzano l'elemento "etichettato" per poi eseguire un procedimento logico di tipo "inferenziale" su un'immagine o un testo, ovvero aiutano di molto i processi di comparazione dei modelli di un sistema in quanto sono dati per validi fin dall'inizio. Queste inferenze sono utilizzate per addestrare una rete neurale, e poi testarla per verificare, ad esempio, se è capace di distinguere un'immagine di un cane da quella di un gatto o da quella di un uccello, come nell'esempio precedente. Anche se può sembrare un processo semplice, l'inserimento di etichette richiede una certa esperienza da parte del programmatore dell'algoritmo: queste devono infatti essere accurate, chiare e senza possibilità di misinterpretazione dei dati. Errori in questa fase possono influenzare i risultati stessi dell'algoritmo di machine learning e compromettere quindi l'apprendimento della rete neurale. Inoltre, il processo di etichettatura può essere laborioso e richiedere tempo, soprattutto quando ci sono grandi quantità di dati da gestire. Per questo motivo, vengono impiegati strumenti per la classificazione e l'indicizzazione di varie tipologie di dati (immagini, testi, formule matematiche e così via).
Invece, nell'apprendimento senza supervisione non sono gli umani a dire cosa significhi ogni dato, ovvero l'algoritmo analizza autonomamente l'informazione e cerca di identificare schemi ricorrenti o particolari senza l'ausilio di un'etichettatura esterna.
Nel mondo del deep learning, che è la forma più avanzata di machine learning, gli algoritmi vengono progettati per simulare la struttura del cervello umano. Questi algoritmi utilizzano vari "strati" di algoritmi (chiamati anche deep layers o hidden layers), che consistono in numerosi processi di unità di elaborazione per analizzare i dati. I risultati ottenuti dal deep learning sono costruiti su una base di informazioni che richiederebbero molto tempo e che sarebbero troppo complesse per l'uomo derivando appunto da una mole di informazioni di immense dimensioni. Non è tutto oro quello che luccica però: anche in questo campo un "riscontro" (chiamato feedback) è necessario per confermare se i risultati dell'analisi degli algoritmi abbia portato ad un risultato positivo o negativo.
Ma cosa succederebbe se il machine learning fosse lasciato a se stesso senza alcun tipo di input/output umano? In mancanza di questo, ovvero senza un numero sufficiente di dati confrontati e verificati in ogni nuovo ciclo "autofago" (ovvero di generazione autonoma), il modello generativo sarà destinato a diminuire progressivamente qualità e precisione. Un fenomeno definito anche "MAD" ovvero Model Autophagy Disorder ("Patologia da Modello Autofago" se la si vuole tradurre in termini clinici, oppure "Disturbo da Modello Autofago" se la si vuole vedere in termini più informatici).
A data odierna, con gli algoritmi attuali, i computer non sarebbero in grado di stabilire con certezza se il risultato di un dato elaborato abbia portato un valore positivo o negativo, ma per quale motivo?
In primo luogo perché i programmi di deep learning sarebbero comunque in grado di analizzare enormi quantità di informazioni in pochissimo tempo ma, senza la guida umana, non saprebbero se i dati siano rilevanti, attendibili o corretti. Proprio per la mancanza di una verifica attendibile, l'intero processo di apprendimento sarebbe inefficiente, in quanto non ci sarebbero certezze sia sulla qualità delle informazioni acquisite che su quelle elaborate.
In secondo luogo, l'apprendimento automatico in assenza di intervento umano sarebbe estremamente vulnerabile all'errore. Se si verifica un percorso sbagliato nell'analisi dei dati durante il processo di apprendimento, il sistema potrebbe continuare a lavorare senza rendersi conto dell'errore o della serie di informazioni errata, perpetuando e ampliando questi nelle elaborazioni successive, generando appunto il disturbo del modello autofago prima descritto, ovvero da dati in entrata errati ne scaturirebbero dati in uscita errati.
Ciò che invece oggi l'AI riesce ad eseguire in modo più che efficiente è il connubio fra i modelli che all'uomo richiederebbero mesi o anni per essere elaborati ed un riscontro umano per una verifica in breve tempo. Modalità che è infatti il modo attuale in cui l'AI aiuta a combattere con previsioni a lungo termine i cambiamenti climatici, aiuta nel settore medico con diagnosi più celeri e mirate sia ad ampio che raggio che ad un ridotto spettro di individui, fino ad arrivare al singolo, oppure agisce in ambito finanziario, rivelando tendenze di mercato verso le quali la mente umana non riesce ad elaborare in tempi brevi.
C'è comunque da dire che siamo ancora all'inizio, ovvero secondo molti nella preistoria dell'AI: anche con i modelli di GPT4 (la più avanzata tecnologia con cui a data attuale l'AI interloquisce con l'uomo) ci sono progetti che sono di gran lunga avanti a questi sistemi. L'approccio neuromorfico, la decodifica delle informazioni neurali dei primati che si spera permetteranno la creazione di un modello neurale in rapporto 1 a 1 fra uomo e macchina, fanno pensare ad un futuro di fatto imprevedibile in questo senso. Per ora stiamo solo simulando il processo neurale umano, ma quando avremo un'emulazione completa di questo, cosa accadrà? Si ricorda che i sostantivi "simulazione" ed "emulazione" non sono sinonimi...