Tarefa 2

Jacques Wainer

Ate 17/11 as 8 da manha

O objetivo desta tarefa é usar algoritmos e métricas de clusterização da familia de k-means. Normalmente clusterização, especialmente se usada para KDD exige uma interpretação dos resultados. Mas a disciplina nao esta centrando na interpretação dos resultados (e o instrutor não sabe como avaliar interpretações). Desta forma esta tarefa acaba centro centrada em usar os algoritmos e menos em interpretar os resultados (a não ser por decidir qual k usar).

Leia este dataset que é um dataset de 1000 dados com 13 atributos. Os dados nao precisam ser normalizados.

k-means

Rode o kmeans com k de 2 a 15.
use silhueta e pelo menos alguma outra medida interna de qualidade
moste os graficos dessas medidas versus o k

escolha um k

Discuta usando essas medidas qual é o k que voce escolheria - em princípio nao há uma “resposta certa” para essa questão. Mas alguns K são mais razoáveis que os outros.

usando o k escolhido no item anterior, rode o GMM

com gaussianas esféricas (matrizes de covariancia sao a matriz identidade vezes uma constante)
com gaussianas diagonais (matrizes de covariancia sao matrizes diagonais)
com gaussianas sem restrição (as matrizes de covariancia são livres)

Medidas externas para comparar duas clusterizações

GMM nao produz uma clustrerização tradicional onde cada dado é associado a UM cluster. Para dado, GMM associa um probabilidade do dado pertencer a cada um dos clusters. Para usar as medidas de concordancia entre clusterizações, as clusterizações precisam

use pelo menos 2 medidas externas para comparar a solução do GMM sem restrição (full) com as outras 2 (esférica e diagonal).
reporte os resultados