Instituto de Computação - UNICAMP

Curso de Especialização em Redes de Computadores 2018

INF550 - Computação em Nuvem I

Islene Calciolari Garcia

Experimento com OpenStack e MapReduce

Ambiente `Cloud.ic`

Instanciação de uma máquina virtual

Vamos fazer nosso experimento em uma máquina virtual do ambiente OpenStack fornecido pelo IC. Esta máquina receberá um IPv4 para uso local.

Clicar em Compute (no menu lateral esquerdo), depois em Instances e siga os passos abaixo:

Clicar em Launch Instance
Escolher um nome para a instância: fedora-hadoop
Clicar em Next
Escolher uma imagem fonte: Fedora-27-x86_64
Clicar em Next
Escolher um flavor: m1.medium.cpu.shared
Clicar em Next
Escolher a rede public_ipv6, que garante também ipv4 privado local
Clicar em Next
Não é necessário definir nenhuma porta
Clicar em Next
O Security Group pode ser o default. Definiremos regras para ele mais tarde.
Clicar em Next
Clicar em Create Key Pair,
- Escolher um nome para o seu par de chaves cloud
- Copiar a chave privada para um arquivo local cloud.key
- Setar a permissão do arquivo para -rw-------
```
$ chmod 600 cloud.key
```
Utilizar o arquivo de configuração: cloud-config
Se quiser definir senha para o usuário fedora, utilizar o arquivo de configuração: cloud-config-senha
Clicar em Launch Instance

Clicar em Network (no menu lateral esquerdo), depois em Security Groups:

Inserir novas regras no default que permitam Ingress e Egress de All TCP.

Após a configuração, vamos testar o acesso via ssh com:

$ ssh -i cloud.key fedora@<ip da instância>

Uso Hadoop: HDFS + MapReduce

A partir daqui, você deve estar logado na máquina virtual:

[fedora@hadoop-fedora ~]$

Antes de iniciarmos os daemons faça verificação da presença do arquivos abaixo. Pode acontecer de o login ser efetuado antes da configuração acabar.

[fedora@fedora2 ~]$ ls
hadoop-2.8.4 wc-python
[fedora@fedora2 ~]$ ls wc-python/
mapper.py  reducer.py
[fedora@fedora2 ~]$ ls .ssh
authorized_keys  id_rsa  id_rsa.pub  known_hosts

Para este experimento, utilizaremos a versão 2.8.4 do Hadoop. Existem versões mais novas com funcionalidade adicionais, mas são mais instáveis. O experimento consiste em uma parte fixa, em que você seguirá uma sequência bem definida de passos para executar a versão MapReduce do grep. Em seguida, você deverá propor e executar um pequeno teste.

Hadoop: modos de operação:

Existem três modos para teste e instalação do Hadoop:

A máquina virtual está préconfigura para usar o modo Pseudo-Distributed, também chamado de Single Node Cluster. Neste modo, você precisará de apenas um computador e poderá verificar o funcionamento dos componentes do básicos Hadoop (HDFS e MapReduce).

Formatar o HDFS e instanciar os daemons:

[fedora@fedora2 ~]$ cd hadoop-2.8.4
[fedora@fedora-hadoop hadoop-2.8.4]$ bin/hdfs namenode -format
[fedora@fedora-hadoop hadoop-2.8.4]$ sbin/start-dfs.sh

Verificar o funcionamento do HDFS em http://<ip>:50070/

Criar diretório raiz do usuário fedora:

[fedora@fedora-hadoop hadoop-2.8.4]$ bin/hdfs dfs -mkdir /user
[fedora@fedora-hadoop hadoop-2.8.4]$ bin/hdfs dfs -mkdir /user/fedora

Copiar dados para o HDFS:

[fedora@fedora-hadoop hadoop-2.8.4]$ bin/hdfs dfs -put README.txt README.txt

Rodar um MapReduce utilizando streaming em Python (fonte: Writing an Hadoop MapReduce Program in Python)

[fedora@hadoop hadoop-2.8.4]$ bin/hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.8.4.jar -mapper ../wc-python/mapper.py -reducer ../wc-python/reducer.py  -input README.txt -output output-README

Verificando os resultados:

[fedora@fedora-hadoop hadoop-2.8.4]$ bin/hdfs dfs -get output-README

Pesquisar na web e rodar outros exemplos prontos de mapreduce.

Escrevendo seu próprio MapReduce

Para adaptar o código você pode, por exemplo:

Escolher algum contexto específico (por exemplo, futebol)
Colocar dados relacionados no HDFS
Alterar o código fonte do mapper e/ou reducer para apresentar os resultados, filtrando, por exemplos, palavras que não são interessantes.

Se você gosta de JAVA...

Execute o código do WordCount v1.0, seguindo o MapReduce Tutorial.

Entrega do relatório

O experimento pode ser feito em duplas; apenas uma pessoa precisa entregá-lo via Moodle. Em caso de fraude, poderá ser atribuída nota zero à disciplina.

Data final para entrega: 07 de julho