MO432 -capitulo 11

Jacques Wainer

11.1

Quase todo do classificador faz duas tarefas

O número (grau de confiança) de vez em quando pode ser interpretado como uma probabilidade (entre 0 e 1 e todos somam 1)

O texto diz que na maioria das aplicações o que voce deveria querer é esse número (e boa qualidade deste número) e não necessariamente a decisão de que classe o dado pertence.

Softmax é uma formula que traduz números de confiança para uma probabilidade.

Well calibrated probabilities - LEIA ISSO DEPOIS - A ideia é que se o numero se parece com uma probabilidade, voce quer que ele realmente tenha algo a ver com frequencias, etc - isso é chamado de calibração (calibrated)

um blog sobre calibração

Presenting Class Probabilities - pode pular

11.2 Importante

Dado que o classificador fez uma previsão.

Vamos assumir que são só duas classes (problema binário)

Uma das classes é mais “central”/“importante” que a outra. No livro ela é chamada de “event” mas o nome mais comum é classe positiva.

Tabela 11.1 é super importante - matriz de confusão

False Positivo - Falso Positivo - o classificador disse que era POSITIVO e ele estava ERRADO (false)

acc = \frac{TN+TP}{N}

sens = \frac{TP}{TP+FN}

FN é um dado que o classificador disse que é negativo mas ele errou e portanto é realmente um positivo!

PPV = \frac{TP}{TP+FP}

False positive rate = FP de verdade negativo que eu errei = taxa de erro dos negativos!

precision e recall so usa os positivos

recall = acurácia dos positivos = sensitivity

precision = o quanto você acredita numa saída positiva = PPV

tabela com todas essas medidas

Non accuracy based criteria

11.3 Importante - medidas baseadas nas “probabilidades” (e nao na decisão)

ROC

Se o classificador calcula as “probabilidades” voce pode escolher qualquer valor entre 0 e 1 para decidir se é positivo.

AUC

Lift curve - leia depois

Outras medidas que sao relacionadas com probabilidades

metricas no sklearn