Introduzione. Negli ultimi anni, c'è stato un crescente interesse per l'uso di grandi quantità di dati – i cosiddetti i Big Data - nella ricerca medica, per il loro potenziale ruolo nel cambiare l'approccio alla cura personale, all'assistenza medica e alla salute pubblica. In questa prospettiva, i Big Data possono fornire un supporto significativo nella ricerca epidemiologica, nell'analisi dei bisogni sanitari, nella prevenzione, cura e gestione delle condizioni mediche e nello sviluppo delle politiche sanitarie. Tuttavia, l'analisi di una così complessa mole di dati pone sfide significative nell'ottenere informazioni basate sulle evidenze. Una parte delle difficoltà nell’introduzione dei Big Data nella Sanità Pubblica è costituita dalla problematicità di abbandonare la classica metodologia statistica, basata sulla verifica d’ipotesi e sull’approccio controfattuale in favore delle metodologie in uso nell’analisi dei Big Data, basata principalmente su metodiche riconducibili all’apprendimento automatico, o machine learning. Vista la novità rappresentata dall’utilizzo del machine learning, l’obiettivo di questa tesi è stato quello di indagare la metodologia basata sull’evidenza utilizzata nell’applicazione di queste metodiche nella sanità pubblica, con particolare attenzione alla fase del loro sviluppo e validazione. Per fare questo è stata effettuata una revisione sistematica della letteratura. Metodi. La ricerca per la revisione sistematica della letteratura è stata effettuata nei database Pubmed, Scopus e Web of Science. Sono stati inclusi studi che hanno riportato l’uso di metodologie di machine learning nell’analisi, anche parziale, dei dati applicati a campi di interesse della Sanità Pubblica. Sono stati estratti: disegno dello studio, popolazione target, fonte dei dati, tipo di algoritmo di machine learning utilizzato, obiettivo dello studio. Inoltre, per gli studi classificati come “predizione del rischio”, sono stati estratti gli approcci metodologici utilizzati nell’applicazione degli algoritmi di Machine Learning. Risultati. In tutto, sono stati identificati 26340 record dalla ricerca sui database. Dopo la rimozione dei duplicati e lo screening effettuato su titoli e abstract, 361 documenti sono stati selezionati per l’analisi degli articoli completi, che ha dato infine come risultato l’inclusione di 38 studi. Di questi, 26 sono studi sulla predizione del rischio, 5 sono studi sul disegno di interventi di sanità pubblica, e 7 sono studi su sorveglianza delle malattie/modelli di previsione. Dei 26 studi che hanno riguardato la predizione del rischio, 15 hanno fatto utilizzo di modelli di tipo Random Forest, mentre l’utilizzo di altri tipi di modelli è risultata più sporadica. In particolare, modelli di tipo Decision Tree sono stati utilizzati in 8 studi, seguiti dai modelli di tipo regressione logistica (7 studi), modelli di tipo Support Vector Machine (6 studi), modelli di tipo Artificial Neural Network (5 studi), e modelli di tipo Bayesan Network. il rischio di overfitting dei modelli sviluppati nei 24 studi che hanno utilizzato algoritmi supervisionati, basato su modalità di tuning, modalità di validazione interna e modalità di validazione esterna, è risultato essere elevato in 6 studi, basso in 15 studi e minimo in 3 studi. Discussione. I risultati di questa tesi hanno mostrato come l’interesse verso le metodiche di machine learning stia iniziando a coinvolgere anche campi della medicina da sempre interesse della sanità pubblica. Quasi un terzo degli studi ha utilizzato approcci non adeguati alle modalità di tuning, training e validazione degli algoritmi di machine learning. Solo tre studi hanno applicato tecniche di validazione esterna appropriate. La continua e sempre in aumento disponibilità di dati di varia natura, sanitaria e non, spingerà sempre più all’utilizzo di queste metodiche nella sanità pubblica, ma queste innovazioni dovranno essere attentamente guidate, sia nell’elaborazione di metodologie standardizzate e condivise nel loro sviluppo, che nella valutazione della loro efficacia e dell’impatto che la loro introduzione può avere sui sistemi sanitari e sulla società, per far sì che le loro potenzialità possano apportare un reale beneficio a tutta la popolazione.
Approcci metodologici basati sul machine learning nell'uso dei big data in sanità pubblica / Migliara, Giuseppe. - (2023 Jan 27).
Approcci metodologici basati sul machine learning nell'uso dei big data in sanità pubblica
MIGLIARA, GIUSEPPE
27/01/2023
Abstract
Introduzione. Negli ultimi anni, c'è stato un crescente interesse per l'uso di grandi quantità di dati – i cosiddetti i Big Data - nella ricerca medica, per il loro potenziale ruolo nel cambiare l'approccio alla cura personale, all'assistenza medica e alla salute pubblica. In questa prospettiva, i Big Data possono fornire un supporto significativo nella ricerca epidemiologica, nell'analisi dei bisogni sanitari, nella prevenzione, cura e gestione delle condizioni mediche e nello sviluppo delle politiche sanitarie. Tuttavia, l'analisi di una così complessa mole di dati pone sfide significative nell'ottenere informazioni basate sulle evidenze. Una parte delle difficoltà nell’introduzione dei Big Data nella Sanità Pubblica è costituita dalla problematicità di abbandonare la classica metodologia statistica, basata sulla verifica d’ipotesi e sull’approccio controfattuale in favore delle metodologie in uso nell’analisi dei Big Data, basata principalmente su metodiche riconducibili all’apprendimento automatico, o machine learning. Vista la novità rappresentata dall’utilizzo del machine learning, l’obiettivo di questa tesi è stato quello di indagare la metodologia basata sull’evidenza utilizzata nell’applicazione di queste metodiche nella sanità pubblica, con particolare attenzione alla fase del loro sviluppo e validazione. Per fare questo è stata effettuata una revisione sistematica della letteratura. Metodi. La ricerca per la revisione sistematica della letteratura è stata effettuata nei database Pubmed, Scopus e Web of Science. Sono stati inclusi studi che hanno riportato l’uso di metodologie di machine learning nell’analisi, anche parziale, dei dati applicati a campi di interesse della Sanità Pubblica. Sono stati estratti: disegno dello studio, popolazione target, fonte dei dati, tipo di algoritmo di machine learning utilizzato, obiettivo dello studio. Inoltre, per gli studi classificati come “predizione del rischio”, sono stati estratti gli approcci metodologici utilizzati nell’applicazione degli algoritmi di Machine Learning. Risultati. In tutto, sono stati identificati 26340 record dalla ricerca sui database. Dopo la rimozione dei duplicati e lo screening effettuato su titoli e abstract, 361 documenti sono stati selezionati per l’analisi degli articoli completi, che ha dato infine come risultato l’inclusione di 38 studi. Di questi, 26 sono studi sulla predizione del rischio, 5 sono studi sul disegno di interventi di sanità pubblica, e 7 sono studi su sorveglianza delle malattie/modelli di previsione. Dei 26 studi che hanno riguardato la predizione del rischio, 15 hanno fatto utilizzo di modelli di tipo Random Forest, mentre l’utilizzo di altri tipi di modelli è risultata più sporadica. In particolare, modelli di tipo Decision Tree sono stati utilizzati in 8 studi, seguiti dai modelli di tipo regressione logistica (7 studi), modelli di tipo Support Vector Machine (6 studi), modelli di tipo Artificial Neural Network (5 studi), e modelli di tipo Bayesan Network. il rischio di overfitting dei modelli sviluppati nei 24 studi che hanno utilizzato algoritmi supervisionati, basato su modalità di tuning, modalità di validazione interna e modalità di validazione esterna, è risultato essere elevato in 6 studi, basso in 15 studi e minimo in 3 studi. Discussione. I risultati di questa tesi hanno mostrato come l’interesse verso le metodiche di machine learning stia iniziando a coinvolgere anche campi della medicina da sempre interesse della sanità pubblica. Quasi un terzo degli studi ha utilizzato approcci non adeguati alle modalità di tuning, training e validazione degli algoritmi di machine learning. Solo tre studi hanno applicato tecniche di validazione esterna appropriate. La continua e sempre in aumento disponibilità di dati di varia natura, sanitaria e non, spingerà sempre più all’utilizzo di queste metodiche nella sanità pubblica, ma queste innovazioni dovranno essere attentamente guidate, sia nell’elaborazione di metodologie standardizzate e condivise nel loro sviluppo, che nella valutazione della loro efficacia e dell’impatto che la loro introduzione può avere sui sistemi sanitari e sulla società, per far sì che le loro potenzialità possano apportare un reale beneficio a tutta la popolazione.File | Dimensione | Formato | |
---|---|---|---|
Tesi_dottorato_Migliara.pdf
Open Access dal 28/01/2024
Note: Tesi completa
Tipologia:
Tesi di dottorato
Licenza:
Creative commons
Dimensione
790.34 kB
Formato
Adobe PDF
|
790.34 kB | Adobe PDF |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.