Administração do Hadoop, solução de problemas e tutorial em vídeo de segurança

2482 Views

12.1 Administração, solução de problemas e segurança do Hadoop

Olá, bem-vindo ao curso Big Data e Hadoop Developer oferecido pela Simplilearn. Esta lição se concentrará na administração, solução de problemas e segurança do Hadoop.

12.2 Objetivos

Depois de concluir esta lição, você será capaz de: • Listar os comandos usados ​​na programação do Hadoop • Explicar as diferentes configurações do cluster do Hadoop • Identificar os diferentes parâmetros para monitoramento e ajuste de desempenho • Explicar a configuração dos parâmetros de segurança no Hadoop

12.3 Cluster principal do Hadoop típico

Um cluster típico do Hadoop Core é composto de máquinas que executam um conjunto de processos cooperativos do servidor. Máquinas no cluster não precisam ser homogêneas. Se as máquinas tiverem capacidade de processamento, memória e largura de banda de disco semelhantes, a administração do cluster se tornará mais fácil. Nesse caso, apenas um conjunto de arquivos de configuração e ambientes de tempo de execução precisa ser mantido e distribuído.

12.4 Balanceador de carga

O Hadoop precisa equilibrar os enormes dados solicitados por um usuário ou aplicativo. Esse balanceamento de carga de dados é executado usando a ferramenta Balanceador de carga. Use 'start-balancer.sh' para iniciar o balanceador e 'stop-balancer.sh' para parar o balanceador.

12.5 Comandos usados ​​na programação do Hadoop

Espera-se que o Application Master seja executado na máquina em que os scripts são executados. Os servidores do Hadoop Core carregam suas configurações dos arquivos disponíveis no diretório de configuração de qualquer instalação do Hadoop Core. Vamos discutir alguns dos comandos usados ​​na programação do Hadoop . slaves.sh executa seus argumentos em cada um dos hosts listados no arquivo conf / slaves. start-mapred.sh inicia o servidor Hadoop MapReduce, o Application Master e o Node Manager. stop-mapred.sh para o servidor Hadoop MapReduce, o Application Master e o Node Manager.

12.6 Arquivos de configuração diferentes do cluster do Hadoop

Arquivos de configuração são responsáveis ​​por configurar o sistema para uma tarefa específica. A seguir estão os arquivos de configuração de um cluster do Hadoop: • hadoop-env.sh define as configurações do ambiente do Hadoop, como configurações de caminho e segurança do Java • core-site.xml define o NameNode e o diretório temporário HDFS • mapred-site.xml define o número de redutores, mapeadores e outras configurações relacionadas a operações do MapReduce • mestres especifica o Secondary NameNode em um ambiente de cluster • slaves especifica os DataNodes em um ambiente de cluster

12.7 Propriedades do hadoop-default.xml

O hadoop-default.xml é usado para configurar os parâmetros que mantêm a consistência no cluster do Hadoop em relação à computação distribuída. A seguir estão as propriedades definidas por meio do hadoop-default.xml: • Global, • Log, • E / S, • Sistema de arquivos, • MapReduce e • propriedades do IPC. Clique em cada propriedade para saber mais.

12.8 Hadoop Cluster - Parâmetros Críticos

Propriedades globais referem-se às configurações que devem ser mantidas em todo o cluster. As propriedades de registro referem-se às configurações relacionadas à geração e manutenção de registros. As propriedades de E / S estão relacionadas às operações de entrada e saída para e de um cluster HDFS. As propriedades do sistema de arquivos estão relacionadas aos arquivos de entrada e saída durante a execução da tarefa. As propriedades MapReduce referem-se às configurações relacionadas à execução adequada da tarefa, como o número de mapeadores. As propriedades do IPC referem-se às configurações relacionadas à comunicação entre processos.

12,9 Hadoop Operação DFS - Parâmetros Críticos

Vamos agora examinar os parâmetros críticos que devem ser configurados para qualquer cluster do Hadoop e operação de DFS. Os três parâmetros críticos que devem ser configurados para qualquer cluster do Hadoop são os seguintes. O parâmetro hadoop.tmp.dir é usado como um diretório temporário para o sistema de arquivos local e o HDFS. O parâmetro fs.default.name é usado para especificar o nome do host e o número da porta da máquina NameNode. O parâmetro mapred.job.tracker é usado para definir o host e a porta na qual o MapReduce Application Master é executado.

12.10 Números de porta para serviços individuais do Hadoop

A tabela mostra os números de porta individuais para serviços específicos que podem ser acessados ​​através do IP do NameNode. Por favor, note que essas portas podem variar em diferentes distribuições comerciais.

12.11 Monitoramento de Desempenho

O desempenho de um cluster precisa ser monitorado para garantir que os recursos sejam alocados e desalocados adequadamente para uma utilização ideal. Isso garante que os recursos não fiquem ociosos. A estrutura do Hadoop fornece várias APIs para permitir que agentes externos forneçam serviços de monitoramento para o serviço Hadoop Core. Alguns agentes usados ​​para o Performance Monitoring são JMX, Nagios, Ganglia, Chukwa e FailMon.

12.12 Ajuste de Desempenho

O ajuste de desempenho é um método que ajuda a executar o trabalho específico de maneira mais rápida e melhor, fazendo com que os recursos participem ativamente de um trabalho especificado. Os fatores considerados durante o Ajuste de Desempenho são a largura de banda da rede, o rendimento do disco, a sobrecarga da CPU e a memória.

12.13 Parâmetros do Ajuste de Desempenho

O ajuste de desempenho é feito usando os seguintes parâmetros. O dfs.datanode.handler.count manipula o número de threads do servidor para o DataNode. O dfs.datanode.du.reserved reserva espaço em bytes por volume. dfs.replication define o fator de replicação. fs.checkpoint.dir é o fator de replicação padrão, que armazena as imagens temporárias e as mescla na necessidade de um trabalho no sistema de arquivos local do DFS Secondary NameNode. mapred.local.dir.minspacestart limita as tarefas do trabalho para execução se o espaço for relativamente menor. dfs.block.size altera o tamanho do bloco; o padrão é 64MB. dfs.name.edits.dir determina a posição exata de armazenamento da transação DFS NameNode ou edita o arquivo no sistema de arquivos local.

12.14 Resolução de problemas e observação de logs

Os logs são importantes para os administradores durante a solução de problemas do cluster do Hadoop. Lembre-se dos seguintes pontos durante a solução de problemas e conclusão das observações de log: • Nomeie os logs no formato Machinename-username-hadoop_service. Um exemplo é o hadoop-sl 000-datanode-DNode1.log. • Os logs são sempre verificados quanto à solução de problemas. • Verifique as exceções Java e as mensagens de erro em caso de erros durante a execução da tarefa MapReduce.

12,15 Apache Ambari

O Apache Ambari é uma estrutura de operação aberta que permite que os administradores do sistema provisionem, gerenciem e monitorem um cluster do Hadoop, bem como integrem o Hadoop às ferramentas operacionais da empresa.

12.16 Principais recursos do Apache Ambari

A seguir estão alguns recursos importantes do Apache Ambari: • Ele possui instalação orientada por assistente do Hadoop em 'n' número de hosts • Fornece a instalação do Hadoop por meio do Ambari Blueprints com base em API para provisionamento automatizado • Ajuda no controle granular do serviço Hadoop e ciclos de vida de componentes • Ajuda no gerenciamento de configurações de serviços do Hadoop e ferramentas avançadas de diagnóstico e visualização de trabalhos • Possui APIs RESTful robustas para personalização e integração com sistemas corporativos

12.17 Cenário Empresarial

Olivia é a vice-presidente executiva de operações de TI da Nutri Worldwide, Inc. Ela começou a usar o Hadoop predominantemente para processamento e análise de dados. Poucos funcionários nesta empresa têm experiência com Hadoop, no entanto, a empresa precisa começar a usá-lo. Isso resultou em alguns erros comuns, como menor tempo de resposta, evitando assim um fluxo de trabalho suave. Olivia quer evitar ocorrências de tais eventos no futuro. Ela quer tornar o Hadoop escalável, organizado e eficaz em sua organização.

12.18 Solucionando problemas de uma demonstração de problema do DataNode ausente 01

Primeiro, crie um problema de falta do DataNode para executar a solução de problemas. Use o comando mostrado na tela para reformatar o NameNode. Pressione Enter para continuar. Na pergunta de reformatação, digite letras maiúsculas em Y e pressione Enter para continuar. Digite Limpar e pressione Enter. O formato é executado com sucesso. Use o comando mostrado na tela para iniciar todos os serviços. Pressione Enter. Todos os serviços do Hadoop foram iniciados com sucesso. Use o comando jps para verificar o status dos serviços do Hadoop. Pressione Enter. Você observará que o serviço DataNode está faltando. Às vezes, durante a atualização ou downgrade de hardware do cluster, você pode enfrentar isso. Pressione Enter. A melhor maneira de entender o motivo dos problemas é ler o arquivo de log. Use o comando mostrado na tela para abrir o arquivo de log do DataNode. Pressione Enter. Você verá um monte de dados exibidos. Observe a parte destacada. Esta parte mostra o motivo pelo qual o serviço DataNode não está sendo iniciado. O motivo é que o ID do namespace de NameNode e DataNode não corresponde. Como técnico, você precisa anotar o ID do namespace NameNode, ou seja, 1861898000. Digite clear e pressione Enter. Use o comando mostrado na tela para abrir o local para reescrever o namespace do DataNode. Pressione Enter. Exclua o ID antigo do namespace e reescreva o id do namespace como 1861898000. Em seguida, salve o arquivo. Use o comando mostrado na tela para parar o serviço. Pressione Enter. Use o comando mostrado na tela para iniciar o serviço agora. Pressione Enter. Vamos verificar se o DataNode está ativo. Digite jps e pressione Enter. Agora você verá que o serviço DataNode é restaurado com sucesso.

12.19 Otimizando uma demonstração de cluster do Hadoop 02

Vamos criar um bloco de dados e realizar a classificação. Digite o comando mostrado na tela para criar um pedaço. Pressione Enter. Uma operação de redução de mapa é executada para classificação. Vamos verificar os dados gerados na GUI. Clique em Navegar no sistema de arquivos. Clique no link de dados. Clique no link demoinput. Observe que são gerados 500MB de dados e o tamanho do bloco padrão é 64MB. Clique em Voltar para a página inicial do DFS. Agora vamos executar a operação de classificação nesses dados. Digite o comando mostrado na tela para executar a operação de classificação e pressione Enter. Isso iniciará a operação MapReduce para executar o terasort. Você pode verificar o status do trabalho na GUI MapReduce. Anote o endereço. Clique no trabalho do Terasort para ver o status do trabalho e o tempo de conclusão. Esta página mostra que a operação é concluída em 3 min e 30 segundos. Vamos tentar realizar alguma otimização. Pressione Enter. Abra o hdfs-site.xml. Digite o comando mostrado na tela e pressione Enter. Você precisa definir os parâmetros hdfs-site.xml. Defina dfs.replication como 2, dfs.block.size como 128MB, dfs.namenode.handler.count como 20 e dfs.datanode.handler.count como 5. Pressione Enter. Abra mapred-site.xml. Digite o comando mostrado na tela. Pressione Enter. Você precisa definir os parâmetros mapred-site.xml agora. Pressione Enter quando você definir o valor para todos os parâmetros. Você precisa excluir a saída de demonstração e o arquivo de entrada. O comando para excluir o arquivo de saída de demonstração é mostrado na tela. Pressione Enter. O comando para excluir o arquivo de entrada de demonstração é mostrado na tela. Pare os serviços do hadoop e comece de novo. O comando para parar os serviços do hadoop é stop-all.sh. Pressione Enter. O comando para iniciar o serviço hadoop é start-all.sh Pressione Enter. Assegure-se de que todos os serviços estejam ativos. Isso é feito usando o comando jps. Pressione Enter. Digite clear e pressione Enter. Vamos recriar os dados usando o Teragen. O comando é mostrado na tela. Pressione Enter. O MapReduce a operação será iniciada para gerar um arquivo de dados. Pressione Enter. Vamos agora executar o terasort nos dados gerados. O comando é mostrado na tela. Pressione Enter. Vamos verificar os dados na GUI. Clique no link de dados. Clique no arquivo demoinput. Você observará que o tamanho do bloco agora é de 128 MB. Vamos verificar o status das tarefas MapReduce. Clique no segundo trabalho para encontrar o tempo de execução do trabalho. Como executamos este exemplo em um modo Pseudo distribuído, o tempo gasto é maior que o tempo anterior. No entanto, se você otimizar o sistema em um cluster real, o tempo de execução diminuirá, gerando mais throughputs. Assim, realizamos com sucesso o processo de otimização.

12.20 Segurança do Hadoop - Kerberos

Até agora, discutimos a configuração e a solução de problemas do Hadoop. Vamos agora discutir o Hadoop Security em detalhes. O Hadoop depende do Kerberos para autenticação segura. O Kerberos é um mecanismo de autenticação de terceiros no qual usuários e serviços dependem de um servidor Kerberos para autenticação. O servidor Kerberos, também conhecido como Key Distribution Center ou KDC, possui três partes: • Principal • Servidor de Autenticação • Concessão de ticket O Principal do servidor é um banco de dados dos usuários e atende às respectivas senhas do Kerberos. O Authentication Server ou AS é para autenticação inicial e emissão de um Ticket Granting Ticket ou TGT. O Servidor de Concessão de Tíquetes ou o TGS é para emissão de tíquetes de serviço subsequentes com base no TGT inicial.

12.21 Kerberos - Mecanismo de Autenticação

As etapas para o mecanismo de autenticação do Kerberos são as seguintes. Etapa 1: Um usuário principal solicita autenticação para o AS. Etapa 2: AS retorna um TGT que é criptografado usando a senha Kerberos do usuário principal. Etapa 3: O usuário principal descriptografa o TGT localmente usando sua senha Kerberos. A entidade de serviço usa um arquivo especial, chamado de keytab, que contém suas credenciais de autenticação para evitar fornecer uma senha toda vez para descriptografar o TGT.

12.22 Configuração do Kerberos - Etapas

As principais etapas da configuração do Kerberos no cluster do Hadoop incluem: • Instalação do KDC • Configuração do KDC • Criação do banco de dados Kerberos • Configuração do primeiro usuário principal para o administrador • Início do Kerberos • Criação de entidades de serviço para NameNode, DataNode, Application Gerenciador mestre e de nó • Instalando o Java Cryptography Extension ou o JCE Unlimited Strength Jurisdiction Policy File em todas as máquinas • Criando um mapeamento entre os principais de serviço e nomes de usuário UNIX • Adicionando informações aos três principais arquivos de configuração de serviço: core-site.xml, hdfs-site. xml e mapred-site.xml

12.23 Confidencialidade dos dados

O Hadoop também fornece os seguintes mecanismos para manter a confidencialidade de dados em seu cluster. A Criptografia de Dados no RPC implica proteger a transferência de dados entre os serviços do Hadoop e os clientes. Para isso, você precisa definir hadoop.rpc.protection como 'privacy' no site principal .xml, que ativará a criptografia de dados. A criptografia de dados na transferência de dados em bloco implica a proteção do protocolo de transferência do DataNode. Para ativar isso, defina dfs.encrypt.data.transfer como 'true' no hdfs-site.xml. A criptografia de dados no HTTP implica proteger a transferência de dados entre o console da Web e os clientes usando SSL ou HTTPS. Clique no URL mostrado para se referir ao guia de segurança de distribuição sobre como ativar esses mecanismos.

12,25 quiz

A seguir, algumas perguntas para testar sua compreensão dos conceitos discutidos aqui.

Resumo 12.28

Vamos resumir os tópicos abordados nesta lição: • O Hadoop pode ser otimizado com base na infraestrutura e nos recursos disponíveis. • O Hadoop é um aplicativo de código aberto e o suporte fornecido otimização complicada é menor. • A otimização é realizada por meio de arquivos .xml. • Os registros são o melhor meio pelo qual um administrador pode entender um problema e resolvê-lo adequadamente. • O Hadoop depende do mecanismo de segurança baseado em Kerberos.

12.29 Obrigado

Com isso, concluímos a última lição do curso Big Data e Hadoop Developer. Obrigado e feliz aprendizado!

12.26 Estudo de caso

Cenário: A XY Networks fornece suporte de segurança de rede para muitas organizações. Ele possui arquivos de log gerados pelo sistema que são críticos para análise e monitoramento de segurança. Esses arquivos estão crescendo em tamanho e a empresa está ficando sem espaço de armazenamento. Ele também usa mecanismo de backup caro e obsoleto para esses arquivos. A empresa recebeu uma estimativa de 5 milhões de dólares para atualizar seu mecanismo de armazenamento e backup. Sua equipe de TI sugere que os custos de armazenamento podem ser reduzidos em 90% usando o Hadoop. Um cluster de mais de 100 máquinas é necessário para configurar e manter o Hadoop e outros produtos do ecossistema. A equipe de TI ouviu falar do Ambari, que pode ajudar a monitorar o cluster. Clique em Análise para saber o próximo movimento da empresa. Análise: A equipe de TI faz pesquisas sobre o Ambari e descobre que ele pode ser usado para monitorar o Hadoop e outras ferramentas do ecossistema, como Hive, HBase e Oozie. Ele também interage com ferramentas de monitoramento de máquina, como Nagios e Ganglia, e ajuda a adicionar novas máquinas ou remover algumas máquinas para manutenção. Ele também alerta os administradores em caso de falta de recursos. Algumas vantagens do uso do Ambari são: 1.Um painel único para todas as ferramentas com interface baseada na web. Recursos 2.Provisioning e máquinas de qualquer lugar. Verificação 3.Health de todos os servidores. 4. fácil de configurar. Clique em Solução para as etapas para instalar o Ambari para monitorar os clusters.

12.27 Estudo de caso - demonstração

Solução: execute as etapas a seguir para configurar um cluster hadoop de 3 nós com Hadoop, Hive, Pig, HBase, Oozie, Sqoop, Flume e Spark, e instale o Ambari para monitorar o cluster: 1. Verifique o painel de todas as ferramentas instaladas. 2. Verifique os serviços e seu status. 3. Verifique as máquinas host instaladas. 4. Verifique os alertas em caso de mau funcionamento do servidor. 5. Verifique o uso de recursos como memória, disco e rede.


{{detail.h1_tag}}

{{detail.display_name}}
{{author.author_name}} {{author.author_name}}

{{author.author_name}}

{{detail.full_name}}

Published on {{detail.created_at| date}} {{detail.duration}}

  • {{detail.date}}
  • Views {{detail.downloads}}
  • {{detail.time}} {{detail.time_zone_code}}

Registrants:{{detail.downloads}}

Downloaded:{{detail.downloads}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}}

Hosted By

Profile

{{author.author_name}}

{{author.author_name}}

{{author.about_author}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}!

First Name*
Last Name*
Email*
Company*
Phone Number*

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

{{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}} Expired

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}

Email
{{ queryPhoneCode }}
Phone Number

Show full article video

Name Date Place
{{classRoomData.Date}} {{classRoomData.Place}} View Details

About the Author

{{detail.author_biography}}

About the Author

{{author.about_author}}

Recommended articles for you

{{ article.title }}

Article