MO432 - capitulo 13

Jacques Wainer

13.1 pode pular

Falamos de QDA na aula de LDA

pagina com LDA e QDA e gaussianas

13.2 Importante

Lembre-se dos MLP da parte de regressão. MLP em regressão tem

um neuronio na camada de saída
a funçao de transferencia desse neuronio é linear

Para MLP para classificação

ha um neuronio na camada de saida para cada classe
a função de transferencia dos neuronios de saida é o mesmo que os dos outros (RELU ou sigmoide)
a medida de erro não é apenas o MSE
calcula-se o softmax de cada saída (converte varios números em medidas tdo tipo de probabilidade - entre 0 e 1 e somam 1)
erro quadrado do softmax

\sum (y_{i,l} - p_{i,l}(x))^2

y_{i,l} é 0 ou 1

ou cross-entropy

\sum y_{i,l} \log(p_{i,l}(x))

Pode incluir uma regularização L2 (que é chamada de weight decay em MLP)

13.3 Pule

13.4 Pouco Importante

É muito mais facil entender os SVM no problema de classificação do que de regressão (como fizemos no cap 9). Mas este capitulo do livro nao explica melhor o SVM.

A principal diferença é que na regressão há um hiperparametro \epsilon que é a largura da regiao de indiferença em volta do valor da regressão que não conta como erro (hinge loss)

No SVM para classificação, voce que maximizar algo como essa regiao (isso é a margem que separa as duas classes). E não há esse hiperparametro.

um video com as ideias mas não formulas.

De uma olhada na pagina do wikipedia https://en.wikipedia.org/wiki/Support_vector_machine Mas a wikipedia usa uma notação que não é a mais comum.

A formula mas comum é

min \quad |w|^2 + C \sum \xi_i

e não

min \quad \lambda |w|^2 + \frac{1}{n} \sum \xi_i

este video é uma derivação das fórmulas primal e dual do SVM (infelizmente usando R no lugar de C)

13.5 Importante

KNN para regressão tira a média dos k vizinhos

KNN para regressão usa a classe mais comum entre os k-vizinhos.

K deve ser impar para 2 classes (assim ha sempre um vencedor)

Vou falar de multiclasse em outra aula

Variações do KNN da regressão são potencialmente uteis na classificação

outras medidas de distancia
voto ponderado pelo inverso da distancia (mais longe menos peso)

14.6 Importante

Naive Bayes - não tem um correspondente para regressão.

Util e mais facil de entender para atributos categoricos

modelar a P(y|X) diretamente.

Eq 13.5

P(y=c|X) = \frac{P(X|y=c) P(y=c)}{P(X)}

jogue fora o denominador. Os números não mais somam 1, mas isso pode ser corrigido (divida pela soma dos valores) ou nem corrija - escolha a classe qyue tem o maior P(X|y=c) P(y=c)
Calcule P(y=c) como sendo a frequencia que a classe c aparece nos dados de treino!
Independencia P(A e B) = P(A) P(B)
na verdade P(A e B) = P(A) P(B|A) e a independencia é dizer que saber A não modifica nada as probabilidades de B (são independentes)
naive/ingenuo bayes P(X|y=c) = \Pi P(X_j|y=c) Os atributos são independentes (dado a saída y=c.
isso raramente é verdade - é uma suposição ingenua.
P(X_j=a|y=c) é a frequencia que a aparece no atributo j quando a classe de saída é c.
P(X_j|y) e P(y) são substituídos por frequencias no conjunto de treino.
Se uma combinação X_j=a e y=c não aparece não use 0 mas sim um \epsilon = 1/P(y=c)

Para dados continuos (nos X_j), assuma que P(X|Y=c) é uma normal (ou outra distribuição) com média e desvio padrão dados pelos dados de treino quando a classe de saída y=c

Sklearn

SVM Kernel RBF https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html Hiperparametros (C e gamma)

SVM kernel linear https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html#sklearn.svm.LinearSVC Hiperparametro C

MLP https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier Hiperparametro (numero de neuronios na camada escondida - apenas 1 camada)

Knn https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier Hiperparametro K (impar)

Naive Bayes https://scikit-learn.org/stable/modules/classes.html#module-sklearn.naive_bayes Categorical, Gaussian, Bernulli (X_j binarios) Multinomial (X_j inteiros positivos) - sem hiperparametros