Il linguaggio nel decadimento cognitivo: marker linguistici e automazione della diagnosi

Ciaurelli, Lorenzo

L'Alzheimer, una delle forme più comuni di demenza degenerativa, è caratterizzato da un progressivo e irreversibile deterioramento delle abilità cognitive e dalla perdita di memoria, da un declino delle facoltà linguistiche e da altri deficit cognitivi e comportamentali che, nello stadio terminale della malattia, portano l'individuo alla totale perdita dell'autosufficienza. Al momento delle prime manifestazioni cliniche della malattia, alcuni sintomi di deficit cognitivo sono già presenti, ad esempio, a livello del linguaggio e delle funzioni esecutive. Tali cambiamenti, in quanto manifestazioni prodromiche del processo patologico, possono quindi essere usati come indici per la diagnosi. Infatti, il declino delle facoltà linguistiche è individuabile già diversi anni prima della fase clinica della malattia; in letteratura non mancano studi longitudinali retrospettivi che hanno dimostrato come alcuni parametri linguistici, estratti da testi scritti o dal parlato spontaneo, possano funzionare da indici di una disfunzione cognitiva: per esempio, il Nun study, l'Iris Murdoch study e l'Harold Wilson project. Negli ultimi anni la ricerca, grazie anche all'affinamento delle tecniche del Natural Language Processing (NLP), si è impegnata con successo nell'individuazione di features in grado di cogliere i differenti stadi del deterioramento cognitivo, in modo tale da creare set di misure da implementare in sistemi automatici per la diagnosi. La capacità di tali strumenti di rilevare pattern latenti nel linguaggio li rende utili nell'individuazione delle fasi prodromiche della demenza, come ad esempio il Mild Cognitive Impairment (MCI), entità nosografica introdotta alla fine degli anni '80 del secolo scorso per descrivere lo stadio intermedio delle abilità cognitive tra i cambiamenti visibili durante l'invecchiamento e quelli che invece soddisfano i criteri per la diagnosi della demenza o dell'Alzheimer. Il fatto di rappresentare una metodologia non invasiva e a basso costo rende queste tecniche adatte ai fini dello screening su larga scala della popolazione potenzialmente a rischio. Il presente lavoro di ricerca, nel percorso già tracciato in Italia dal progetto OPLON (“OPportunities for active and healthy LONgevity”, Smart Cities and Communities – DD 391/RIC), il quale porta avanti l’ambizioso obiettivo di studiare la fattibilità di un sistema di diagnosi della demenza basato sull’analisi automatica del parlato spontaneo, ha come obiettivo quello di elaborare tecniche di raccolta dati e utilizzare gli strumenti del Natural Language Processing e del Machine Learning per creare un sistema che sia in grado di analizzare e classificare campioni di linguaggio spontaneo in maniera automatica. A tal fine, si è scelto di analizzare la produzione di disfluenze e fenomeni di esitazione nel parlato spontaneo dei soggetti sani e affetti da decadimento cognitivo. Fenomeni già ampiamente studiati nell’inglese e che in molti casi sono stati già utilizzati come parametri nei sistemi automatici di diagnosi della demenza, ma tuttora quasi completamente inesplorati per l’italiano. Per l’analisi è stato utilizzato un sotto campione del corpus OPLON, composto dalle registrazioni di 48 soggetti (21 soggetti di controllo, 19 affetti da decadimento cognitivo lieve, 9 soggetti a uno stadio iniziale della demenza) durante l’esecuzione di due compiti: descrizione di una figura e racconto di una propria giornata lavorativa tipo. Le 96 registrazioni provenienti da questo corpus sono state annotate dall’autore, utilizzando il software Praat. L’annotazione ha riguardato disfluenze e fenomeni di esitazione, secondo una distinzione ampiamente dibattute in letteratura. Con le prime si fa riferimento alla totalità dei fenomeni che intaccano la continuità del parlato, mentre con “fenomeni di esitazione” ci si riferisce a una delle sottoclassi delle disfluenze, ovvero quella composta da pause silenti e piene, prolungamenti sillabici e ripetizioni. Inoltre, a differenza dei fenomeni di disfluenza, i fenomeni di esitazione possono essere descritti anche quantitativamente in relazione alla loro durata. Delle disfluenze è stata fornita una duplice tipologia di annotazione utilizzando un approccio formale e uno funzionale di descrizione. Infatti, in letteratura, si può individuare un approccio “formale”, volto a descrivere e classificare le disfluenze tenendo conto delle forme che esse assumono nel parlato. L’accento è quindi posto sui pattern che le disfluenze esibiscono ai veri livelli di analisi linguistica, indipendentemente dal ruolo che esse svolgono all’interno della produzione orale. L’approccio “funzionale”, invece, partendo dall’assunto che un problema nella pianificazione si ripercuota nella produzione sotto forma di disfluenze, propone una descrizione che tenga conto dei processi cognitivi coinvolti nella pianificazione del parlato. Al fine di automatizzare il processo di analisi, le informazioni contenute nei file di annotazione sono state estratte ed elaborate attraverso l’uso di algoritmi creati dall’autore utilizzando il linguaggio di programmazione Python. A partire dai dati forniti dall’annotazione, sono stati calcolati una serie di parametri mutuati da studi precedenti e alcuni nuovi, proposti dall’autore. Per ognuno dei tre gruppi di parametri, ovvero quelli relativi all’annotazione dei fenomeni di esitazione, delle disfluenze descritte “formalmente” e “funzionalmente”, è stata calcolata la significatività statistica, con il fine di trovare i parametri in grado di differenziare i soggetti affetti da decadimento cognitivo dai soggetti di controllo. I parametri che hanno raggiunto la significatività statistica sono stati successivamente utilizzati come ingresso in due sistemi automatici di classificazione realizzati con il software Orange Data Mining. Lo scopo è stato quello di costruire un sistema addestrato con i dati analizzati e in grado di classificare una nuova produzione orale come appartenente a uno dei tre gruppi, ovvero gruppo di controllo, dei soggetti affetti da decadimento cognitivo lieve o a uno stadio iniziale della demenza. I risultati ottenuti dimostrano che è possibile differenziare i soggetti di controllo dai soggetti affetti da decadimento cognitivo sulla base di parametri relativi a disfluenze e fenomeni di esitazione. In particolar modo questi ultimi si sono rilevati molto più affidabili nel cogliere differenze tra i gruppi analizzati. Per quanto riguarda le disfluenze, invece, la classificazione e l’annotazione funzionale è risultata essere uno strumento più fine, in grado di cogliere uno dei deficit più caratterizzanti il decadimento cognitivo, ovvero quello riguardante la sfera lessicosemantica. L’insieme dei parametri analizzati fornisce un’accurata fotografia delle difficoltà affrontate dai pazienti nella produzione orale e dalle diverse strategie utilizzate per far fronte a una ridotta capacità nella programmazione del discorso. Il rallentamento del ritmo (speechrate), la produzione di enunciati più brevi e di pause più lunghe e frequenti sono alcuni dei modi in cui questo deficit si manifesta nella produzione orale. Infine, l’esperimento di classificazione condotto usando le tecniche del machine learning dimostra come sia possibile individuare, con un discreto margine di affidabilità, i soggetti affetti da decadimento cognitivo utilizzando pochi parametri come input. L’accuratezza ottenuta, intorno all’80%, nella classificazione dei soggetti ad uno stadio iniziale della demenza è in linea con quella della bibliografia di riferimento che oscilla tra il 70% e l’85%. Da migliorare invece la classificazione dei soggetti affetti da decadimento cognitivo che varia tra il 62% e il 66%.

Il linguaggio nel decadimento cognitivo: marker linguistici e automazione della diagnosi / Ciaurelli, Lorenzo. - (2020 Feb 25).