Apprendimento Supervisionato
L’apprendimento supervisionato è un tipo di machine learning in cui il modello viene addestrato su un dataset etichettato, ovvero ogni osservazione ha un valore noto dell’output. Ad esempio, ogni insieme di features che rappresenta una lesione è associato a un’etichetta (maligno/benigno). Il modello supervisionato impara a mappare gli input sugli output per prevedere correttamente le etichette dei nuovi dati non visti. In pratica, l’etichetta della variabile target può essere assegnata dal radiologo, se si adotta la diagnosi per immagini come standard di riferimento, o dal patologo, se si adotta la diagnosi istopatologica. La maggior parte degli studi radiomici segue questo paradigma, e molti modelli di machine learning operano in un contesto supervisionato.

Regressione, Classificazione
Nell’apprendimento supervisionato, vengono usati due tipi di modelli deti di regressione o di classificazine, in base alla variabile target:
- quantitativa: quando la variabile target è quantitativa, cioè una risposta numerica continua, vengono selezionati dei modelli di regressione. Quelli più comunemente utilizzati includono:
- regressione lineare: ideale per relazioni lineari tra le variabili.
- Regressione Ridge/ Lasso/ Elastic Net: varianti regolarizzate della regressione lineare per prevenire overfitting.
- Alberi decisionali: utili per catturare relazioni non lineari.
- Random Forest (Regressione): un insieme di alberi per migliorare l’accuratezza e la robustezza.
- qualitativa: quanto la variabile target è qualitativa cioè di tipo categorica (binaria o multi-classe), si utilizzano i modelli di classificazione. Modelli tipici includono:
- Regressione logistica: adatta per classificazioni binarie.
- Alberi decisionali
- Random Forest
- Support Vector Machines (SVM)
- k-Nearest Neighbors (k-NN)
- Naive Bayes
Apprendimento Non Supervisionato
L’apprendimento non supervisionato descrive una situazione più complessa in cui l’output associato a ciascuna osservazione è sconosciuto. In questo caso, ad esempio, non è possibile applicare un modello di regressione lineare, poiché non esiste una variabile di output da prevedere. Gli algoritmi non supervisionati estraggono conoscenza direttamente dai dati di input, ad esempio identificando classificazioni tra gruppi di dati basate su caratteristiche comuni (clustering). In questo modo, il modello genera possibili valori di output, che possono essere utilizzati per fare previsioni sui nuovi input.

Clustering
Il clustering viene utilizzato nell’apprendimento non supervisionato. I modelli di clustering sono tecniche di apprendimento automatico utilizzate per raggruppare un insieme di dati in sottogruppi omogenei chiamati cluster. Questi modelli mirano a identificare strutture e schemi all’interno dei dati, garantendo che gli elementi all’interno di un cluster siano più simili tra loro rispetto agli elementi appartenenti ad altri cluster.

Negli algoritmi di machine learning in generale vengono utilizzati uno o più parametri regolabili, noti come iperparametri, che possono essere modificati per influenzare le prestazioni del modello. Gli iperparametri sono parametri esterni al modello stesso che ne influenzano il comportamento durante l’addestramento, come la profondità di un albero decisionale o il tasso di apprendimento di una rete neurale. In pratica, la regolazione degli iperparametri avviene ottimizzando le prestazioni del modello su più sottogruppi di dati, spesso tramite la cross-validazione, per trovare la configurazione migliore che bilanci accuratezza e generalizzazione.