Exercício 1

Jacques Wainer

Exercício 1

Data de entrega: 30/5 a meia noite, via moodle

Objetivos: leitura, preprocessamento, validação cruzada e regressão linear

1) Leia

Leia o arquivo solar-flare.csv. O arquivo é tipo csv mas usa um branco como separador. Ainda a primeira linha nao é para ser lida, e não há uma linha com o nome dos atributos/colunas.

Voce provavelmente precisa usar algo como o pandas para ler o arquivo como um todo.

As tres primeiras colunas são categóricas. As ultimas 3 colunas são os atributos de saída - vc quer prever cada um dos 3 valores finais.

Uma explicação para esses dados esta em https://archive.ics.uci.edu/ml/datasets/Solar+Flare

Imprima usando o pandas.head() o inicio e o fim desse conjunto de dados.

2) Converta os atributos categóricos para numéricos

Usando o one-hot-enconder, converta todos os atributos categóricos para numéricos.

Imprima usando o pandas.head() o inicio e o fim desse conjunto de dados transformados.

3) Centering and scaling

Faca o centering and standard scaling para todos os atributos de entrada (convertidos para numéricos)

4) PCA

reduza a dimensionalidade dos atributos de entrada usando PCA.

  1. quantas dimensões restarão se mantivermos 90% da variância dos dados?

  2. Use o scree plot para determinar quantas dimensões devem ser mantidas

  3. converta os dados usando o PCA com 90% das variância.

5) Validação cruzada e regressão linear

Fazendo 5 repetições de uma validação cruzada aleatória com split de 70/30 (70% treino 30% teste).

Treine 3 regressões lineares, uma para cada um dos 3 atributos de saída.

regressão linear do Sklearn https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

Treine no conjunto de treino e meça o RMSE e o MAE deste modelo treinado no conjunto de teste correspondente.

Imprima o RMSE e o MAE no conjunto de testes de cada uma das 5 repetições. Imprima também a média do RMSE e do MAE.