Defesa de Mestrado de Darwin Ttito Concha

Título do Trabalho
Multi-Stream Convolutional Neural Networks for Action Recognition in Video Sequences Based on Spatio-Temporal Information
Candidato(a)
Darwin Ttito Concha
Nível
Mestrado
Data
Add to Calender 2019-04-04 00:00:00 2019-04-04 00:00:00 Defesa de Mestrado de Darwin Ttito Concha Multi-Stream Convolutional Neural Networks for Action Recognition in Video Sequences Based on Spatio-Temporal Information Sala 85 do IC 2 INSTITUTO DE COMPUTAÇÃO mauroesc@ic.unicamp.br America/Sao_Paulo public
Horário
14:00
Local
Sala 85 do IC 2
Orientador(a)
Helio Pedrini
Banca Examinadora

* Titulares

Unidade/Instituição

Hélio Pedrini

IC/UNICAMP

Ricardo Cerri

DC/UFSCar

Esther Luna Colombini

IC/UNICAMP

 

* Suplentes

Unidade/Instituição

Guilherme Pimentel Telles

IC/UNICAMP

Fabio Augusto Faria

ICT/UNIFESP

Resumo

Avanços na tecnologia digital aumentaram as capacidades de reconhecimento de eventos por meio do desenvolvimento de dispositivos com alta resolução, pequenas dimensões físicas e altas taxas de amostragem. O reconhecimento de eventos complexos em vídeos possui várias aplicações relevantes, particularmente devido à grande disponibilidade de câmeras digitais em ambientes como aeroportos, bancos, estradas, entre outros. A grande quantidade de dados produzidos é o cenário ideal para o desenvolvimento de métodos automáticos baseados em aprendizado de máquina profundo. Apesar do progresso significativo alcançado com as redes neurais profundas aplicadas a imagens, a compreensão do conteúdo de vídeos ainda enfrenta desafios na modelagem de relações espaço-temporais. Nesta dissertação, abordamos o problema do reconhecimento de ações humanas em vídeos. Uma rede de múltiplos canais é a nossa arquitetura de escolha para incorporar informações temporais, uma vez que se pode beneficiar de redes profundas pré-treinadas para imagens e de características tradicionais para inicialização. Além disso, seu custo de treinamento é geralmente menor do que o das redes neurais para vídeos. Imagens de ritmo visual são exploradas, pois codificam informações de longo prazo quando comparadas a quadros estáticos e fluxo ótico. Um novo método baseado em rastreamento de pontos é proposto para decidir a melhor direção do ritmo visual para cada vídeo. Além disso, investigamos redes neurais recorrentes treinadas a partir das características extraídas dos canais da arquitetura anterior. Experimentos conduzidos nas desafiadoras bases de dados públicas UCF101 e HMDB51 mostraram que nossa abordagem é capaz de melhorar o desempenho da rede, alcançando taxas de acurácia comparáveis aos métodos da literatura. Embora os ritmos visuais sejam originalmente criados a partir de imagens RGB, outros tipos de fontes e estratégias para sua criação são explorados e discutidos, tais como fluxo ótico, gradientes de imagem e histogramas de cores.