Tarefa 2

Jacques Wainer

Ate 17/11 as 8 da manha

O objetivo desta tarefa é usar algoritmos e métricas de clusterização da familia de k-means. Normalmente clusterização, especialmente se usada para KDD exige uma interpretação dos resultados. Mas a disciplina nao esta centrando na interpretação dos resultados (e o instrutor não sabe como avaliar interpretações). Desta forma esta tarefa acaba centro centrada em usar os algoritmos e menos em interpretar os resultados (a não ser por decidir qual k usar).

Leia este dataset que é um dataset de 1000 dados com 13 atributos. Os dados nao precisam ser normalizados.

  1. k-means
  1. escolha um k

Discuta usando essas medidas qual é o k que voce escolheria - em princípio nao há uma “resposta certa” para essa questão. Mas alguns K são mais razoáveis que os outros.

  1. GMM

usando o k escolhido no item anterior, rode o GMM

  1. Medidas externas para comparar duas clusterizações

GMM nao produz uma clustrerização tradicional onde cada dado é associado a UM cluster. Para dado, GMM associa um probabilidade do dado pertencer a cada um dos clusters. Para usar as medidas de concordancia entre clusterizações, as clusterizações precisam