MO432 -capitulo 7

Jacques Wainer

7.1 Importante

veja figura 7.1

essa é uma rede neural de uma camada escondida (que é o caso mais comum)

é também chamada de MLP (multi layer perceptron).

o algoritmo de “back propagation” é na verdade uma decida do gradiente. So encontra um mínimo local!

redes neurais tem muitos parâmetros (que pode levar a overfitting)

soluções para overfitting

mais modernamente, usa-se uma ativação chamada “relu” em vez da função logística g

hiperparametros: numero de neurônios na camada do meio, e o lambda da regularização L2.

variações nos algoritmos de descida do gradiente (momento, adam, RMSprop, nesterov AG, etc - veja MO431)

https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html#sklearn.neural_network.MLPRegressor

7.2 PULE

7.3 Importante

SVM é mais fácil de entender usando classificação - veja cap 13 do livro.

1a versão é uma regressão linear usando

2a versão:

f(u) = \beta_0 + \sum_{x_i \in s.v} \alpha_i \langle x_i , u \rangle

onde \langle x_i , u \rangle é o produto interno.

Kernel K(x,u)

Kernel RBF é normalmente muito bom, mas ele tem um novo hiperparametos o \gamma (gamma).

Hiperparametros: C, \gamma e \epsilon.

sklearn: https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html?highlight=svm#sklearn.svm.SVR

e https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVR.html#sklearn.svm.LinearSVR para o kernel linear

7.4 KNN importante

K é um hiperparametro

Escolha os K vizinhos mais próximos (no conjunto de treino) do dado novo. Retorne a média do valor desses vizinhos.

Os dados devem estar normalizados para que a distancia possa ter sentido.

K baixo implica num modelo complexo e potencial de overfitting.

K alto modelo menos complexo (tira a media de vários dados e não depende tanto do mais próximo) K=n retorna a media dos dados de treino sempre!

KNN não demora nada para treinar mas O(n) para testar cada dado! Pode-se usar estruturas de dados para achar mais rapidamente os k-vizinhos (kd-tree, ball tree)

Alternativas:

problema: curse of dimensionality ou maldição da dimensionalidade. Distancias em espaços de muitas dimensões podem não significar muito - a maioria dos pontos esta a uma mesma distancia de todos os outros!!

sklearn https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html#sklearn.neighbors.KNeighborsRegressor