Overview

MC855
MapReduce
Spark
Bug
Umbrella
Livre


Sheet 1: MC855

RA MapReduce Spark Bug Umbrella Livre Nota
047027 10 10 10 10 10 10
103797 10 10 10 10 10 10
117856 10 10 8 10 10 9.6
118525 10 10 8 10 10 9.6
118941 10 10 8 10 10 9.6
119319 10 10 10 10 10 10
119383 10 10 10 10 10 10
119494 10 10 8 10 10 9.6
119785 10 10 10 10 10 10
120884 10 10 10 10 10 10
122314 10 10 10 10 10 10
135723 10 10 10 10 10 10
136102 10 10 10 10 10 10
136323 10 10 10 10 10 10
136700 10 10 10 10 10 10
137715 10 10 10 10 10 10
137748 10 10 10 10 10 10
139715 10 10 10 10 10 10
146446 10 10 10 10 10 10
181493 8 10 7 10 10 9
181596 8 10 7 10 10 9

Sheet 2: MapReduce

Grupo RA Tema Comentários Nota
1 119319 Page Rank Explicação teórica do algoritmo PageRank. Testes com dados da Wikipedia. Modificação visava escolher apenas dados relacionados a pessoas. 10
119785 10
139715 10
103797 10
2 118941 LastFM Aplicação base conta o número de usuários que ouviram cada música. Modificação visa contar músicas que foram reproduzidas integralmente, o que poderia ser útil para sites de recomendação. 10
117856 10
119494 10
118525 10
3 146446 Detecção de entidades corrompidas Aplicação e implementação desenvolvida pelo grupo. Boa descrição do problema e da solução. 10
136323 10
136700 10
137748 10
4 119383 Geolocalização das páginas da Wikipedia Implementação original agrupa artigos por localidade. Alteração contou o número de artigos, para dar uma visão de densidade de publicações por país. 10
136102 10
120884 10
5 135723 Clusterização de crimes Implementação desenvolvida pelo grupo com duas fases de map/reduce. Visualização dos resultados em um mapa com tipos de crimes com cores distintas. 10
122314 10
137715 10
047027 10
6 181493 Amigos em comum Não utilizaram o Hadoop. Implementação em Python. 8
181596 8

Sheet 3: Spark

Grupo RA Tema Comentários Nota
1 119319 Page Rank Mantiveram mesmo tema do projeto anterior. Boa comparação com Hadoop. 10
119785 10
139715 10
103797 10
2 118941 Localização de venda de produtos Utilizaram um exemplo de um tutorial Java Spark. Explicaram bem o código e a proposta de alteração. 10
117856 10
119494 10
118525 10
3 146446 Determinação de localização por ip Utilizaram Kd-tree e obtiveram bom desempenho para bases de dados relativamente grandes. Dicas para configuração do cluster. 10
136323 10
136700 10
137748 10
4 119383 Estatísticas de voo Código original apresentava atraso por companhia aérea; codígo modificado detalha o atraso por trecho. Boa comparação com o Hadoop. 10
136102 10
120884 10
5 135723 Clusterização de crimes Reimplementação do problema apresentado no projeto anterior. Boa comparação com o Hadoop. 10
122314 10
137715 10
047027 10
6 181493 Ranking de corrupção Adaptação criativa do problema visto no projeto anterior, adaptado para o contexto político atual. 10
181596 10

Sheet 4: Bug

Grupo RA Tema Comentários Nota
1 119319 SPARK-14759 After join one cannot drop dynamically added column Boa explicação do problema, conseguiram reproduzir o bug e fizeram boa investigação. 10
119785 10
139715 10
103797 10
2 118941 MAPREDUCE-5983 TestCommandLineJobSubmission assumes there is a /tmp dir that can be used for temp data Explicaram bem o problema, identificando-o no código. Propuseram soluções. Apresentação com atraso. 8
117856 8
119494 8
118525 8
3 146446 YARN-2413 capacity scheduler will overallocate vcores Explicação completa do contexto do bug, com apresentação do YARN, capacity scheduler e vcores. Apresentaram discussão no JIRA sobre dúvida se este seria realmente um bug ou um comportamento não documentado. Não simularam. 10
136323 10
136700 10
137748 10
4 119383 SPARK 14700 PySpark Row equality operator is not overridden Escolheram bug recente. Explicaram bem o contexto e patch para solução do problema. 10
136102 10
120884 10
5 135723 MAPREDUCE-2380 Multiple replace function call can be replaced with a single for loop to improve performance Explicaram bem o bug. Escreveram patch e comentaram aspectos de desempenho. 10
122314 10
137715 10
047027 10
6 181493 HADOOP-13264 DFSOutputStream close method fails to clean up resources in case no hdfs datanodes are accessible Boa explicação do contexto do bug. Demonstração do problema. Entrega com atraso. 7
181596 7

Sheet 5: Umbrella

Grupo RA Tema Comentários Nota
1 119319 HDFS-6994 libhdfs3 - A native C/C++ HDFS client Issue proposta em 2014, com algumas sub-tasks fechadas e outras em aberto. 10
119785 10
139715 10
103797 10
2 118941 SPARK-6116 DataFrame API improvement umbrella ticket (Spark 1.5) e SPARK-9576 DataFrame API improvement umbrella ticket (Spark 2.0 and 2.1) Issue de 2015 com uma centena de sub-tasks, resolvida. Grupo comentou o problema e detalhou algumas sub-tasks. 10
117856 10
119494 10
118525 10
3 146446 YARN-2139 [Umbrella] Support for Disk as a Resource in YARN Issue proposta em 2014, com discussão sobre problema importante de gerenciamento de disco como um recurso. 10
136323 10
136700 10
137748 10
4 119383 SPARK-15834 Time zone / locale sensitivity umbrella Issue recente, com poucas sub-tasks. Grupo abordou detalhes de problema interessante e recorrente. 10
136102 10
120884 10
5 135723 SPARK-4587 Model export/import Issue criada em 2014 para atender item bastante solicitado na lista de emails. Grupo caracterizou a biblioteca Mlib e detalhes do problema de importação/exportação. 10
122314 10
137715 10
047027 10
6 181493 HDFS-9924 [umbrella] Nonblocking HDFS Access Issue recente que aborda problema importante relacionado ao desempenho do sistema de arquivos. 10
181596 10

Sheet 6: Livre

Grupo RA Tema Comentários Nota
1 119319 SPARK-6942 Umbrella: UI Visualizations for Core and Dataframes Issue umbrella de 2015, já resolvida. Grupo comentou histórico e sub-tasks. 10
119785 10
139715 10
103797 10
2 118941 HADOOP-13223 winutils.exe is a bug nexus and should be killed with an axe Issue recente sobre problema prático interessante. Grupo apresentou uma boa discussão sobre o assunto. 10
117856 10
119494 10
118525 10
3 146446 YARN-1011 [Umbrella] Schedule containers based on utilization of currently allocated containers Issue de 2013, mas com comentários recentes. Discussão interessante sobre uso e alocação especulativa dos recursos. 10
136323 10
136700 10
137748 10
4 119383 HADOOP-13230 s3a's use of fake empty directory blobs does not interoperate with other s3 tools Issue recente. Problema interessante sobre armazenamento e acesso aos arquivos na Amazon. 10
136102 10
120884 10
5 135723 SPARK-7075 Project Tungsten (Spark 1.5 Phase 1) Issue umbrella criada em 2015. Grupo discutiu problemas recentes de desempenho no SPARK. 10
122314 10
137715 10
047027 10
6 181493 HADOOP-9859 remove TABs from source Issue descrevendo bug simples, reportado em 2013. Grupo desenvolveu código para resolver o problema. 10
181596 10