Estrazione di Features

Indice

Features

Le features radiomiche sono parametri quantitativi estratti dalle immagini radiologiche e rappresentano l’input principale di un modello di radiomica. Queste features sono informazioni numeriche che descrivono aspetti e proprietà visive di un’immagine, che vanno dalle più semplici come l’intensità e la forma, alle caratteristiche di trama (texture), per esempio la rugosità o granulosità, fino a quelle più complesse e astratte dell’immagine. Il modello di radiomica cerca quindi di correlare queste features a caratteristiche fenotipiche e biologiche, come per esempio l’aggressività di un tumore. Le features radiomiche possono essere classificate in due tipi principali: features progettate a mano (hand-crafted features) e features profonde (deep features). 

1. Features tradizionali 

(Hand-Crafted Features). Sono le features tradizionali e utilizzate in origine per la texture analysis ed elaborate con il machine learning. Vengono generate da algoritmi progettati o selezionati da esperti e data scientist, anziché essere apprese direttamente dalle immagini come avviene nel deep learning. Sono suddivise in features di primo, secondo ordine o di ordini superiori. Con l’aumentare dell’ordine, diventano meno interpretabili, ovvero risulta più difficile comprendere visivamente cosa rappresentino nell’immagine.

Features di primo ordine

Le features di primo ordine sono statistiche di base derivate dai valori di intensità di grigio di un’immagine e forniscono informazioni generali sulla sua composizione senza considerare la loro relazione spaziale. Alcuni esempi includono:

  • Media: il valore medio di intensità dei pixel/voxel nella regione d’interesse (ROI o VOI), che indica il livello di luminosità generale.
  • Mediana: il valore di intensità centrale della distribuzione dei pixel, utile per rappresentare il valore centrale della regione quando ci sono outlier.
  • Deviazione standard: misura la variazione dei valori di intensità rispetto alla media, indicando quanto è uniforme o disomogenea l’intensità nella regione.
  • Varianza: la media dei quadrati delle deviazioni dalla media, che quantifica la dispersione dei valori di intensità.
  • Skewness (asimmetria): misura il grado di asimmetria della distribuzione dei valori di intensità. Un’immagine può avere distribuzioni più o meno asimmetriche, indicando eventuali squilibri nella densità delle intensità.
  • Kurtosis (curtosi): descrive la “piattezza” o “acuminatezza” della distribuzione dei valori di intensità rispetto a una distribuzione normale. Può fornire informazioni sulla prevalenza di valori estremi (outlier).
  • Energia: somma dei quadrati dei valori di intensità, utile per indicare la quantità totale di intensità o “energia” all’interno dell’immagine.
  • Entropia: misura del disordine o della complessità nella distribuzione dei valori di intensità. Una maggiore entropia indica una distribuzione più complessa e meno uniforme.
  • Range: differenza tra il valore massimo e il minimo di intensità, che fornisce un’idea della gamma di intensità presenti nella regione.
  • Massimo e Minimo: i valori di intensità più alti e più bassi all’interno della regione, utili per capire i limiti estremi dell’intensità.

Features di secondo ordine

Le feature di secondo ordine, anche note come feature di texture, analizzano la relazione spaziale tra coppie di pixel o voxel vicini. A differenza delle feature di primo ordine, che considerano solo i valori di intensità singolarmente, le feature di secondo ordine sono incentrate sui pattern di distribuzione e struttura interna delle intensità, fornendo informazioni più dettagliate sulla “texture” o trama dell’immagine. Queste feature sono calcolate tramite matrici, come quella di di co-occorrenza dei livelli di grigio. Di seguito sono riportate alcune tra le principali:

  • Matrici di co-occorrenza a livello di grigio (GLCM): misurano la frequenza con cui coppie di pixel con specifiche intensità si trovano a una certa distanza e angolazione l’uno dall’altro. Le feature derivate includono:
    • Contrasto: misura la differenza di intensità tra pixel vicini; valori alti indicano una variazione elevata, utile per identificare bordi.
    • Omogeneità: valuta la vicinanza dei pixel di intensità simile, indicando quanto l’immagine sia uniforme.
    • Energia: misura la ripetitività delle strutture nell’immagine, con valori alti in caso di pattern regolari.
    • Correlazione: quantifica la dipendenza lineare tra intensità di pixel adiacenti, utile per comprendere la struttura di pattern complessi.
  • Gray-Level Run-Length Matrix (GLRLM): misura la lunghezza delle sequenze (run) di pixel consecutivi con la stessa intensità lungo una determinata direzione, evidenziando pattern lineari o striature. Le feature correlate includono:
    • Lunghezza del run corto o lungo: misura la frequenza di segmenti corti o lunghi, utili per identificare grana fine o grossolana.
    • Run di alto o basso livello: calcola la frequenza di run ad alta o bassa intensità.
  • Gray-Level Size Zone Matrix (GLSZM): analizza la dimensione delle “zone” di pixel adiacenti con lo stesso livello di grigio, indipendentemente dall’orientamento. Questa matrice fornisce feature come:
    • Lunghezza della zona piccola o grande: misura la quantità di zone piccole o grandi per identificare variazioni strutturali.
    • Intensità della zona: rileva il livello di grigio predominante in zone specifiche.
  • Neighborhood Gray-Tone Difference Matrix (NGTDM): calcola le differenze di intensità tra un pixel e i suoi vicini, creando un profilo della texture basato sul contrasto locale:
    • Contrasto locale: misura la disomogeneità tra il pixel centrale e il suo contesto.
    • Granularità: riflette la finezza o coarseness della texture.

Features di ordine superiore

Le feature di ordine superiore (o high-order features) si basano su matrici che prendono in considerazione le relazioni tra tre o più pixel o voxel, piuttosto che solo coppie. A differenza delle feature di primo e secondo ordine, queste caratteristiche estraggono pattern ancora più complessi e informazioni profonde sulla struttura dell’immagine, e sono meno interpretabili visivamente. Alcuni esempi includono:

  • Matrice delle co-occorrenze multiple (Multiple Co-occurrence Matrix): estende la matrice di co-occorrenza a più di due pixel vicini, catturando pattern di relazione più intricati e dettagliati tra più pixel.
  • Matrice dei gradienti (Gradient Matrix): valuta la variazione dell’intensità tra gruppi di tre o più voxel, utile per identificare cambiamenti sottili nelle transizioni di densità nei tessuti.
  • Pattern frequenziali (Frequency Patterns): Le trasformate wavelet (o Trasformata di Fourier), scompongono un’immagine in componenti di frequenza per evidenziare pattern specifici a diverse scale. Questo permette di rivelare strutture come bordi, contorni e texture a risoluzioni multiple, consentendo al modello di rilevare dettagli fini.
  • Feature basate sui frattali: Le dimensioni frattali misurano la complessità o rugosità di una forma, catturando come le strutture si ripetono a scale diverse. Queste feature sono particolarmente utili per identificare strutture irregolari, come i contorni dei tumori.
  • Laplacian of Gaussian filter (LoG): Il filtro LoG enfatizza i bordi concentrandosi sulle aree di rapido cambiamento di intensità, per analizzare i contorni di strutture, come lesioni o altre irregolarità.

Non esiste un consenso generale sulla definizione, il che comporta difficoltà nel confrontare diversi studi di radiomica. Alcuni autori classificano le features radiomiche in diverse classi in base alla loro rilevanza. Queste includono misure basate sull’intensità (principalmente features di primo ordine), eterogeneità e texture (features di secondo ordine), forma e volume (features di secondo ordine come volume, sfericità, compattezza e rapporto superficie-volume), radiomica peritumorale (che valuta l’eterogeneità strutturale nella regione peritumorale intorno a un tumore, includendo stroma, linfonodi e potenziali siti metastatici) e radiomica della vascolarizzazione tumorale (tortuosità dei vasi e organizzazione strutturale).

L’Image Biomarker Standardisation Initiative (IBSI) fornisce linee guida per l’estrazione, la definizione e la validazione delle features radiomiche progettate a mano [85]. Questa standardizzazione garantisce riproducibilità e comparabilità tra studi e istituzioni diversi, aumentando l’affidabilità e l’utilità clinica delle analisi radiomiche.

2. Deep Features

Le deep features vengono estratte automaticamente utilizzando metodi di deep learning (DL), senza un intervento umano esplicito. Poiché i metodi di DL utilizzano reti neurali convoluzionali (CNN), il loro output deterministico contribuisce a eliminare la variabilità sia intra che inter-operatore. Rispetto alle feature tradizionali, le deep features sono meno interpretabili dal punto di vista geometrico e di caratteristiche radiologiche.

Le deep features possono essere “esposte” all’utente e disponibili per l’elaborazione come dati tabellari.

Presentazione dei dati su tabella

Dopo l’estrazione delle features tradizionali, i risultati vengono organizzati in una tabella spesso denominata “dataset tabellare” in modo da migliorare la manipolazione e l’analisi dei dati. Il dataset tabellare viene applicato sia alla radiomica tradizionale che alla radiomica profonda, ma non al deep learning end-to-end. Questo dataset tabellare è composto da righe e colonne, dove ogni riga rappresenta un’osservazione (ROI) e ogni colonna rappresenta una feature radiomica, oppure altre variabili cliniche e demografiche usate come predittori.