Tutorial Avançado de HDFS e MapReduce Video

643 Views

ingressou.

5.22 Reduzir Side Join (cont.)

Uma junção lateral de redução pode ser usada: • quando vários conjuntos de dados grandes são unidos por uma chave estrangeira, • quando a flexibilidade é necessária para executar qualquer operação de junção, • quando uma grande quantidade de largura de banda de rede está disponível e • quando não há limitação no tamanho dos conjuntos de dados. Uma analogia SQL de uma junção lateral de redução é dada na tela. Na saída de uma junção lateral de redução, o número de arquivos de partes é igual ao número de tarefas de redução.

5.23 Conexão Replicada

Uma junção replicada é um padrão somente de mapa que funciona da seguinte maneira: • Ele lê todos os arquivos do cache distribuído e os armazena em tabelas de consulta na memória. • O mapeador processa cada registro e o associa aos dados armazenados na memória. • Não há dados arrastados para a fase de redução. • O mapeador fornece a parte de saída final.

5.24 Junção Replicada (continuação)

As junções replicadas devem ser usadas: • quando todos os conjuntos de dados, exceto o maior, couberem na memória principal de cada tarefa do mapa limitada pelo Java Virtual Machine ou tamanho de heap da JVM, e • quando houver necessidade de uma junção interna ou uma junção externa esquerda, com o grande conjunto de dados de entrada sendo a parte "esquerda" da operação. Uma analogia SQL de uma junção replicada é dada na tela. Na saída de uma junção replicada, o número de arquivos de partes é igual ao número de tarefas do mapa.

Junção Composta 5.25

Uma junção composta é um padrão somente de mapa que funciona das seguintes maneiras: • Todos os conjuntos de dados são divididos no mesmo número de partições. • Cada partição do conjunto de dados é classificada por uma chave estrangeira e todas as chaves externas residem na partição associada de cada conjunto de dados. • Dois valores são recuperados da tupla de entrada associada a cada conjunto de dados com base na chave estrangeira e na saída para o sistema de arquivos.

5.26 Junção Composta (continuação)

Juntas compostas devem ser usadas: • quando todos os conjuntos de dados são suficientemente grandes e • quando há necessidade de uma junção interna ou de uma junção externa completa. Uma analogia SQL de uma junção composta é exibida na tela. Na saída de uma junção composta, o número de arquivos de partes é igual ao número de tarefas do mapa.

5,27 Produto Cartesiano

Um produto cartesiano é um padrão somente de mapa que funciona das seguintes maneiras: • Os conjuntos de dados são divididos em várias partições. • Cada partição é alimentada para um ou mais mapeadores. Por exemplo, na imagem mostrada aqui, as divisões A-1 e A-2 são enviadas para três mapeadores cada. • Um RecordReader lê todos os registros de divisão de entrada associados ao mapeador. • O mapeador simplesmente associa cada registro de um conjunto de dados a cada registro de todos os outros conjuntos de dados.

5,28 Produto Cartesiano (cont.)

Um produto cartesiano deve ser usado: • quando houver necessidade de analisar relacionamentos entre todos os pares de registros individuais e • quando não houver restrições no tempo de execução. Na saída de um produto cartesiano, cada combinação de tupla possível dos registros de entrada é representada.

5,31 Quiz

A seguir, algumas perguntas para testar sua compreensão dos conceitos discutidos.

Resumo 5.34

Vamos resumir os tópicos abordados nesta lição: ● O HDFS é um sistema de arquivos distribuídos estruturado em blocos projetado para rodar em máquinas pequenas e comuns. ● As configurações no HDFS avançado são o benchmarking do HDFS, a configuração do tamanho do bloco do HDFS e a desativação de um DataNode. ● Desativar um DataNode refere-se à desconexão dos servidores DataNode da rede do cluster do Hadoop. ● O MapReduce pode usar tipos de dados personalizados, formatos de entrada e formatos de saída, além dos tipos definidos pela estrutura. ● Junções são construções relacionais usadas para combinar registros.

5.35 Conclusão

Isso conclui 'Advanced HDFS and MapReduce. ' Na próxima lição, vamos nos concentrar em 'Pig'.

5.8 HDFS Demo 01

Nesta tela, você verá uma demonstração no HDFS. Inicie os serviços do Hadoop usando o comando start-all.sh. Pressione Enter. Assegure-se de que os serviços do hadoop estejam ativos e em execução. Vamos fazer benchmarking do seu HDFS. Inicialmente, executaremos a operação de gravação. O comando é mostrado na tela. Digite o comando e pressione Enter. O resultado mostra o tempo de execução para gravar arquivos e taxa de E / S e taxa de transferência. Pressione Enter. Vamos executar a operação de leitura do arquivo. O comando é mostrado na tela. Digite o comando e pressione Enter. O comando será executado. O resultado mostrará o tempo de saída. É assim que o benchmarking é feito. Na próxima etapa, veremos como definir manualmente o tamanho do bloco. Podemos definir o tamanho do bloco manualmente editando hdfs-site.xml. O comando para acessar hdfs-site.xml é mostrado na tela. Precisamos definir o parâmetro dfs.block.size para 134217728, ou seja, 128MB. Digite o código inteiro, conforme mostrado no vídeo. Digite o código e pressione Enter. Precisamos atualizar o HDFS. Para atualizar o HDFS, precisamos parar e iniciar os serviços do hadoop. Para parar os serviços, o comando é stop-all.sh. Digite o comando e pressione Enter. Deixe-nos carregar um conjunto de dados para teste. O comando é mostrado na tela. Digite o comando e pressione Enter. Vamos olhar o tamanho do bloco. Acesse a GUI. O link para acessar a GUI é http://192.168.21.184:50070. Clique em datanew. Em seguida, clique em grande. Observe o tamanho do bloco. Assim, definimos com sucesso o tamanho do bloco. Na próxima etapa, veremos como desatribuir DataNodes. Precisamos criar um arquivo de exclusão. Digite o comando mostrado na tela e pressione Enter. Digite o endereço IP do DataNode e salve o arquivo. Vamos atualizar o cluster. O comando é mostrado na tela. Assim, nós executamos o comando com sucesso.

5.9 Configurando o tamanho do bloco HDFS no Hadoop 2.7.1 Demo 02

Nesta tela, você verá uma demonstração sobre a configuração do tamanho do bloco HDFS no Hadoop 2.7.1. Baixe um e-book em sua máquina a partir do URL mostrado na tela. Use o comando exibido na tela para verificar se ele foi baixado. Vamos copiar para o HDFS usando o comando hadoop fs -copyFromLocal. Defina o tamanho do bloco dfs para 30 bytes ao copiar o arquivo. Você receberá um erro. Agora vamos tentar copiar para o HDFS configurando o tamanho do bloco para 64 bytes enquanto copiamos o arquivo. Você receberá novamente um erro. Agora vamos copiar para o HDFS usando um tamanho de bloco de 1048576 bytes ao copiar o arquivo. Desta vez, a cópia é bem sucedida, como 1048576 é um múltiplo de 64, que é o requisito para o tamanho do bloco de arquivos HDFS. Verifique o arquivo usando o comando fornecido na tela. Verifique mais estatísticas de arquivos usando o comando hadoop fsck filename. Percebemos que o arquivo tem cerca de 1573151 bytes e é copiado em dois blocos, já que o tamanho de cada bloco é de 1048576 bytes. Verifique o tamanho do bloco executando o comando exibido na tela. Observe que o tamanho do bloco corresponde ao que foi definido, isto é, 1048576.

5.29 Programa MapReduce para classes graváveis ​​Demo 03

Nesta demonstração, você verá como escrever um programa MapReduce para classes graváveis. Crie um novo projeto clicando em Menu Arquivo, Novo e Projeto. Selecione Projeto Java e clique no botão Avançar. Digite o nome do projeto e clique no botão Avançar para continuar. Selecione Bibliotecas. Clique no botão Add External JARs para adicionar JARs externos. Selecione todos os arquivos jar. Clique no botão OK para adicionar arquivos jar. Clique no botão Adicionar arquivos JAR externos novamente. Clique duas vezes na pasta lib. Selecione todos os arquivos JAR. Clique no botão OK. Clique no botão Concluir para continuar. Clique no botão Não para continuar. Clique no botão Play para executar o programa. Você receberá um erro informando que a entrada não foi recebida. Clique com o botão direito no arquivo App.java. Clique no botão Propriedades. Selecione o arquivo de classe e clique no botão Editar. Clique na guia Argumentos. Digite a entrada e caminhos de saída. Clique no botão Aplicar. Clique no botão OK. Clique no botão Play para executar o programa. O programa é executado perfeitamente. Você pode verificar a saída visitando a GUI da web. Abra a home page da GUI da web e clique em Navegar no sistema de arquivos. Clique em output2. A parte-r-00000 contém a saída. Clique no mesmo para ver a saída do programa. Assim, demonstramos com sucesso o programa usando a classe Writable.

5.32 Estudo de Caso

Cenário: A XY Invest fornece consultoria de investimento para indivíduos com patrimônio líquido elevado e mantém dados do mercado de ações de várias bolsas. Ele lida com dados do mercado de ações críticos para análise e monitoramento. Isso implica em processamento intensivo de grandes quantidades de dados e o dimensionamento vertical está se mostrando caro. Em seu esforço para encontrar uma solução alternativa para o processamento, o XY identifica que o uso do Hadoop reduziria significativamente o custo e o esforço da empresa. Ele quer usar os recursos avançados do MapReduce para processamento de dados. Clique em Análise para saber o próximo movimento da empresa. Análise: A empresa faz pesquisas sobre o Hadoop e descobre que é uma solução popular para armazenamento e processamento de Big Data . O Hadoop possui dois componentes, HDFS para armazenamento e MapReduce para processamento. 1.Alguns recursos avançados do Hadoop: 2.Ele distribui o processamento para que os trabalhos possam ser concluídos rapidamente. 3. É altamente tolerante a falhas, portanto, mesmo que algumas tarefas falhem, elas serão automaticamente tentadas novamente. 4. Ele fornece muitas interfaces graváveis ​​para entrada e saída. 5.Pode distribuir arquivos necessários para processamento usando o recurso de cache distribuído. Clique em Solução para as etapas para explorar os dados do mercado de ações usando o MapReduce.

5.33 Estudo de Caso - Demo

Solução: execute as etapas a seguir para explorar dados do mercado de ações usando o MapReduce. 1. Obter dados do mercado de ações para o Google. 2. Obter os dados de negociação para um cliente (compra e venda de ações do Google). 3. Armazene os dados de negociação no HDFS. 4.Crie um programa MapReduce que use o cache distribuído para distribuir os dados do mercado de ações. O programa MapReduce também usa várias interfaces graváveis ​​do Hadoop. 5. Processe os dados de negociação e analise o lucro / perda do cliente.


{{detail.h1_tag}}

{{detail.display_name}}
{{author.author_name}} {{author.author_name}}

{{author.author_name}}

{{detail.full_name}}

Published on {{detail.created_at| date}} {{detail.duration}}

  • {{detail.date}}
  • Views {{detail.downloads}}
  • {{detail.time}} {{detail.time_zone_code}}

Registrants:{{detail.downloads}}

Downloaded:{{detail.downloads}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}}

Hosted By

Profile

{{author.author_name}}

{{author.author_name}}

{{author.about_author}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}!

First Name*
Last Name*
Email*
Company*
Phone Number*

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

{{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}} Expired

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}

Email
{{ queryPhoneCode }}
Phone Number

Show full article video

Name Date Place
{{classRoomData.Date}} {{classRoomData.Place}} View Details

About the Author

{{detail.author_biography}}

About the Author

{{author.about_author}}

Recommended articles for you

{{ article.title }}

Article