Preparazione dei Dati
La precisione dei modelli radiomici può essere compromessa da scarsità di dati, fattori confondenti e problemi di squilibrio delle classi (class inbalance), che possono introdurre bias e portare a previsioni inaffidabili. La gestione dei fattori confondenti e dei problemi di squilibrio delle classi si affrontano prevalentemente nella preparazione dei dati.
Valori Mancanti
Gestire i valori mancanti è essenziale per mantenere l’integrità e la validità delle analisi. I valori mancanti possono derivare da diverse fonti, come errori di acquisizione delle immagini, problemi tecnici o semplicemente variabilità nelle pratiche cliniche. Le strategie per gestire i dati mancanti includono la rimozione dei record con valori mancanti, metodi di imputazione semplici in cui i valori mancanti vengono sostituiti da statistiche come la media o la mediana, e tecniche avanzate di imputazione che sfruttano approcci di machine learning. Inoltre, analizzare i modelli dei dati mancanti per determinare se siano casuali o sistematici può prevenire bias e garantire robustezza e affidabilità.
Scarsità di Dati
I dataset radiomici possono presentare dimensioni limitate e una scarsità di dati che facilmente porta all’overfitting (sovradattamento). Questo problema può essere affrontato attraverso diverse strategie. La data augmentation consiste nell’applicare una serie di trasformazioni alle immagini originali per ottenere nuovi dati. Le generative adversarial networks (GAN) sono un tipo peculiare di rete DL particolarmente adatte a questo scopo, in grado di creare immagini “false” a partire da quelle originali. Le conditional GAN introducono informazioni aggiuntive per guidare il processo di generazione, mentre le CycleGAN traducono immagini da un dominio a un altro, utili per compiti come la sintesi e traduzione di immagini mediche. Questi approcci possono essere utilizzati anche per valutare la robustezza delle caratteristiche radiomiche in diverse condizioni.
Fattori Confondenti
I fattori confondenti sono variabili che influenzano indipendentemente sia i predittori (caratteristiche radiomiche) che le variabili target (esiti delle malattie), inducendo il modello a attribuire effetti alle caratteristiche radiomiche che sono in realtà dovuti ai confondenti. Ad esempio, in uno studio volto a prevedere esiti di malattia basandosi su determinate features delle immagini, età e stato socioeconomico potrebbero agire da confondenti se non adeguatamente controllati. Poiché la variabilità degli esami di imaging è generalmente controllata nelle fasi iniziali (protocollo di imaging e pre-elaborazione), i fattori confondenti dipendono principalmente dalle diverse distribuzioni di caratteristiche demografiche o cliniche (come sesso, stadio o grado della lesione) tra i diversi siti o scanner. La loro presenza può portare ad associazioni spurie e conclusioni errate
Per mitigare l’impatto dei fattori confondenti negli studi clinici, si possono utilizzare varie strategie, come stratificazione, matching, aggiustamento statistico e randomizzazione. Tuttavia, nei contesti retrospettivi, come generalmente accade negli studi radiomici, i ricercatori devono fare affidamento sulle tecniche di controllo dei confondenti durante l’analisi dei dati, piuttosto che durante la raccolta. Queste includono metodi statistici come l’analisi multivariata, il propensity score matching e altri. Tuttavia, queste tecniche possono solo parzialmente mitigare l’impatto dei confondenti, e il loro successo dipende dalla disponibilità e qualità delle informazioni sui potenziali confondenti.
Problemi di Squilibrio delle Classi (Class Inbalance)
Lo squilibrio delle classi si verifica quando il numero di istanze in una classe supera di gran lunga le istanze in altre classi. Questo squilibrio può distorcere le prestazioni dei modelli di ML, portando a previsioni errate a favore della classe maggioritaria. Ad esempio, se un dataset contiene il 95% di casi sani e solo il 5% di casi di malattia, un modello che preveda ogni caso come sano otterrebbe un’alta accuratezza complessiva, nonostante sia praticamente inutile. Per affrontare i problemi di squilibrio delle classi si possono utilizzare tecniche di oversampling, undersampling, apprendimento sensibile ai costi, approcci algoritmici e metodi ensemble.
Affrontare sia i fattori confondenti che lo squilibrio delle classi richiede spesso un approccio integrato. Ad esempio, durante la stratificazione dei dati per controllare i confondenti, può essere necessario applicare tecniche di risampling all’interno di ogni strato per affrontare lo squilibrio delle classi. Inoltre, i passaggi di pre-elaborazione dovrebbero essere attentamente progettati per garantire che le soluzioni a un problema non aggravino l’altro.