Exercício 4

Data de entrega 24/4 em aula

Use os dados aqui para o projeto de clusterização.

  1. Faça a clusterizacao usando o k-means, com k=2 ate k=8. Para estes valores de k, use pelo menos duas medidas relativas de qualidade de cluster (por exemplo, variancia intercluster, Dunn, silhueta, ou outros) para descidir qual é o melhor k. Vamos chamar este k de km (k melhor).
  2. Plote os clusters para o km e para um outro valor bem diferente (k=2 ou k=8). Verifique as diferencas entre as 2 clusterizacoes.
  3. Para o seu valor de km, gere 3 clusterizacoes com inicializações diferentes. Compare os clusteres. O que a estabilidade ou não estabilidade dos clusteres te diz.
  4. Para o seu valor de km, gere uma mistura de gaussianas (GMM) usando EM. Compare os centros das gaussianas com o centro dos seus clusters.
  5. Use a clusterização hierarquica com "single linkage", "average linkage" e "complete linkage". Corte as arvores resultantes em km clusters. Compare estas tres particoes com o resultado do k-means.