Deep Generative Models for Clustering: A Semi-supervised and Unsupervised approach

Título do Trabalho
Deep Generative Models for Clustering: A Semi-supervised and Unsupervised approach
Candidato(a)
Jhosimar George Arias Figueroa
Nível
Mestrado
Data
Add to Calender 2018-02-19 00:00:00 2018-02-19 00:00:00 Deep Generative Models for Clustering: A Semi-supervised and Unsupervised approach Deep Generative Models for Clustering: A Semi-supervised and Unsupervised approach Sala 53 - IC 2 INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
14:00 h
Local
Sala 53 - IC 2
Orientador(a)
Gerberth Adín Ramírez Rivera
Banca Examinadora

Titulares  -  Professores Doutores

Unidade/Instituição

Gerberth Adín Ramírez Rivera

IC/UNICAMP

Eduardo Alves do Valle Júnior

FEEC/UNICAMP

Sandra Eliza Fontes de Avila

IC/UNICAMP

Suplentes  -  Professores Doutores

Unidade/Instituição

Fernanda Alcântara Andaló

IC/UNICAMP

Roberto de Alencar Lotufo

FEEC/UNICAMP

Resumo

Algoritmos de agrupamento estão comumente relacionados à aprendizagem não supervisionada onde nenhum dado rotulado está disponível. No entanto, em muitas situações, uma pequena quantidade de informação está disponível, essa informação pode ajudar a orientar o processo de aprendizagem usando dados rotulados e não-rotulados, i.e. aprendizagem semi-supervisionada. Nesta tese, nosso objetivo é resolver ambos tipos de problemas com a ajuda de modelos generativos profundos os quais são modelos probabilísticos que aprendem alguma estrutura oculta subjacente dos dados de forma não supervisionada.

Em primeiro lugar, visamos resolver o caso semi-supervisionado, propondo um modelo para aprender uma representação latente da categoria-característica dos dados, que é guiada por uma tarefa auxiliar semi-supervisionada. O objetivo desta tarefa auxiliar é atribuir rótulos aos dados não rotulados e regularizar o espaço de características. Nosso modelo é representado por uma versão modificada de um autoencoder variacional categórico, i.e. um modelo generativo probabilístico que aproxima uma distribuição categórica com inferência variacional. Nós nos beneficiamos da arquitetura do autoencoder para aprender poderosas representações com redes neurais profundas de forma não supervisionada e para otimizar o modelo com tarefas semi-supervisionadas. Derivamos uma função de perda que integra o modelo probabilístico com nossa tarefa auxiliar para orientar o processo de aprendizagem. Os resultados experimentais mostram a eficácia do nosso método obtendo mais de 90% de acurácia de agrupamento usando apenas 100 exemplos rotulados no conjunto de dados MNIST. Além disso, mostramos que as características aprendidas possuem propriedades discriminativas que podem ser usadas para classificação.

Por último, visamos resolver o caso não supervisionado, propondo um modelo para aprender os agrupamentos e as representações dos nossos dados de uma maneira end-to-end. Nosso modelo proposto é uma modificação do modelo generativo empilhado M1+M2 aplicado ao aprendizado semi-supervisionado, no qual, modelamos nossos agrupamentos com a distribuição Gumbel-Softmax e consideramos o uso de um autoencoder determinístico para aprender características latentes, evitando o problema de variáveis estocásticas hierárquicas. Os resultados experimentais em três conjuntos de dados mostram a eficácia do nosso modelo alcançando resultados competitivos com o estado da arte. Além disso, mostramos que nosso modelo gera amostras realistas.