Defesa de Doutorado de Anderson Carlos Sousa e Santos

Título do Trabalho
Spatio-Temporal Representation Based on Autoencoder for Video Action Recognition
Candidato(a)
Anderson Carlos Sousa e Santos
Nível
Doutorado
Data
Add to Calender 2019-09-30 00:00:00 2019-09-30 00:00:00 Defesa de Doutorado de Anderson Carlos Sousa e Santos Spatio-Temporal Representation Based on Autoencoder for Video Action Recognition Sala 85 do IC 2 INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
13:30
Local
Sala 85 do IC 2
Orientador(a)
Hélio Pedrini
Banca Examinadora

 

 

* Titulares

Unidade/Instituição

Hélio Pedrini

IC/UNICAMP

David Menotti Gomes

DINF/UFPR

Ronaldo Cristiano Prati

UFABC

Thiago Vallin Spina

LNLS

Alexandre Mello Ferreira

IC/UNICAMP

 

* Suplentes

Unidade/Instituição

Marco Antonio Garcia De Carvalho

FT/UNICAMP

Tiago José de Carvalho

IFSP/Campinas

Fabio Augusto Faria

UNIFESP

Resumo

Devido aos avanços no desenvolvimento de câmeras com altas taxas de amostragem, baixo custo, tamanhos reduzidos e alta resolução, um rápido crescimento na aquisição e disseminação de vídeos tem impulsionado o desenvolvimento de diversas aplicações multimídia, como transmissão interativa, entretenimento, telemedicina, vigilância, entre outras. Para lidar com a enorme quantidade de dados e apoiar operadores humanos, torna-se necessário introduzir mecanismos automáticos para processar e compreender o conteúdo dos vídeos. Apesar dos recentes avanços na área de visão computacional, mais especificamente na análise de imagens por meio do uso de redes neurais profundas, o problema do reconhecimento de ações ainda é desafiador, uma vez que as relações espaço-temporais são difíceis de ser modeladas. Nesta tese, propomos e avaliamos uma nova representação de vídeo baseada em um autoencoder que emprega uma rede neural convolucional, a qual recebe uma sequência de vídeo na forma de quadros empilhados, codifica-a para uma representação latente e decodifica-a de volta para uma sequência de vídeo que se assemlhe ao máximo com a original. A arquitetura projetada do autoencoder impõe ao codificador a geração de uma imagem que resume toda a sequência do vídeo. Uma análise de diferentes funções de perda foi realizada para avaliar o impacto na imagem gerada e na reconstrução do vídeo. A transformação proposta permite alavancar modelos profundos baseados em imagens, além de sua visualização e compressão simples. Ao contrário de outras abordagens de vídeo para imagem, o método proposto fornece aprendizado de ponta-a-ponta com qualquer modelo de rede neural que espere uma imagem como entrada e pode ser adaptado a diferentes problemas de análise de vídeo. Nós demonstramos o uso de nossa representação utilizando uma abordagem de múltiplos canais, o que também inclui uma imagem RGB e uma pilha de imagens de fluxo óptico. Para combinar todos os canais, introduzimos a aplicação de uma abordagem com integral fuzzy que generaliza outros operadores de fusão comuns para melhorar todas as pontuações individuais. Resultados experimentais utilizando os desafiadores conjuntos de dados UCF101 e HMDB51 validam a representação espaço-temporal baseada em autoencoder, pois demonstram que nosso método é capaz de superar um modelo de referência de dois canais e alcançar taxas de acurácia competitivas em comparação com outras abordagens disponíveis na literatura.