Cosa sono le curve AUC – ROC ?

AI, APPUNTI, INTELLIGENZA ARTIFICIALE

Cos’è AUC-ROC

Iniziamo con una definizione formale:  La curva ROC (Receiver Operating Characteristic curve) è una curva  che mostra le prestazioni di un modello di classificazione a diverse soglie di probabilità.  AUC è l’acronimo di  (Area Under The Curve) e misura l’intera area bidimensionale sotto l’intera curva ROC da (0,0) a (1,1), in figura in grigio.

Prima di inoltrarci a capire cosa sia l’AUC-ROC e come tracciarla dobbiamo andare ad esaminare altre metriche che saranno utilizzate per tracciare la curva in questione.

In particolare dobbiamo capire e conoscere la metrica di Recall o TPR (True Positive Rate) o anche conosciuta come  Sensitivity e la sua duale FPR (False Positive Rate)  = 1 – Sensitivity.

Il grafico ROC si ottiene pertanto  tracciando FPR e TPR sullo sistema di riferimento cartesiano,  dove FPR (False Positive Rate) è tracciato sull’asse delle x e TPR (True Positive Rate) è tracciato sull’asse y per diversi valori di soglia di probabilità compresi tra 0,0 e 1,0.

In definitiva se noi andassimo ad effettuare dei test di inferenza sul nostro DATASET campione con l’obiettivo di calcolare il valore totale dei TPR e degli FPR al cambiare della soglia di valutazione su una classificazione binaria otterremmo la nostra AUROC.

Ricordiamoci che (vedi il mio precedente articolo):

La Recall  indica  quanto il sistema sia in grado di giudicare  positivamente ( indica infatti la capacità di un sistema di trovare i  possibili casi positivi nelle nostre migliori previsioni) e si esprime come rapporto tra i True Positive (risposte corrette) e la somma dei True Positive (risposte corrette) e dei False Negative ( risposte della rete ritenute negative quando in realtà sono positive) in altre parole :

TPR (True Positive Rate) / Recall /Sensitivity = \frac{TP}{TP + FN}

si riferisce al rapporto tra le predizioni positive previste correttamente su tutte le etichette positive mentre :

FPR = \frac{FP}{FP + TN}

si riferisce al rapporto tra le predizioni positive previste in modo errato su tutte le etichette negative.

Cosa indicano FP, FN, TP, TN ?

  • True Negative (TN) si verifica quando la previsione è 0 e la vera classe è effettivamente 0, cioè prevediamo correttamente che la classe è negativa (0).
  • False Negative (FN) si verifica quando la previsione  è 0 mentre la vera classe è in realtà 1, ovvero prevediamo erroneamente che la classe è negativa (0).
  • False Positive (FP) si verifica quando la previsione è 1 mentre la vera classe è in realtà 0, ovvero prevediamo erroneamente che la classe è positiva (1).
  • True Positive (TP) si verifica quando la previsione è  1 mentre la vera classe è in realtà 1, cioè prevediamo correttamente che la classe è positiva (1).

Un modo elegante per tracciare le metriche appena descritte ed avere una visione immediata della qualità del classificatore è quello di usare la matrice di confusione

 

Comments