Como o Hadoop faz com que os Big Data pareçam pequenos

Como o Hadoop faz com que os Big Data pareçam pequenos
Author

Simplilearn

Last updated March 12, 2018


  • 824 Views

Mike Olson é um dos cérebros fundamentais por trás do desenvolvimento do Hadoop . No entanto, até ele analisa o novo tipo de programação "Big Data" utilizada no Google. Mike Olson dirige uma organização que representa uma autoridade considerável na programação mais abafadora do planeta. Ele é o CEO da Cloudera, uma startup do Vale do Silício que organizou o Hadoop, um estágio de programação de código aberto focado em tecnologia que transformou o Google na unidade mais predominante na web.

Preparando-se para uma carreira em Ciência de Dados? Faça este teste para saber onde você está!

O Hadoop é usado para alimentar um produto de US $ 813 milhões anunciado até o ano de 2016. De qualquer forma, até mesmo Olson diz que a partir de agora é uma notícia antiga. O Hadoop surgiu de dois documentos de pesquisa que o Google distribuiu no final de 2003 e 2004. Um retratou o sistema de arquivos do Google, um método para colocar medidas enormes de dados em vários servidores de máquinas extremamente baratos, e o outro, Mapressed, que reuniu preparando o poder dentro de cada um desses servidores e espremendo todos esses dados em algo valioso. Depois de oito anos, o Hadoop é geralmente utilizado na web para dissecação de dados e diversos tipos de outras atribuições de processamento de números. De qualquer forma, o Google prosseguiu.

Em 2009, o monstro da web começou a suplantar a GFS e a Mapreduce com novos avanços, e Mike Olson avisou que essas inovações são o lugar para onde o mundo está indo. "Na chance que você precisa compreender o que a escala expansiva, dados de elite preparar fundação sem limites se assemelha, a minha recomendação seria para examinar a exploração do Google papéis que estão se transformando neste momento ", disse Olson em meio a uma conversa de fim de semana pela Wired.

Sobre a chance que você precisa para perceber o que a escala extensa, dados de elite preparando estrutura sem limites se assemelha, minha recomendação seria a de examinar os documentos de exames do Google que estão se transformando neste momento.

Desde a ascensão do Hadoop, o Google distribuiu três trabalhos especialmente fascinantes sobre a estrutura que sustenta sua monstruosa operação na web. Um dos elementos sutis da cafeína é o estágio do produto que monta o arquivo para a ferramenta de pesquisa na web do Google. Um programa alternativo mostra o Pregel, um "banco de dados de diagramas" destinado a orientar as conexões entre medidas insondáveis ​​de dados online. No entanto, o papel mais encantador é o caso particular que descreve um instrumento chamado Dremel.

"Se você tivesse me avisado até então de que casos da Dremel fazer, eu não teria confiado que você pudesse fabricá-lo", diz Armando Fox, um educador de engenharia de software da Universidade da Califórnia, em Berkeley, que tem algum conhecimento sobre esses assuntos. de estágios de programação medidos de foco de dados.

Dremel é um método para dissecar dados. Correndo em vários servidores, dá-lhe a oportunidade de "questionar" muitos dados, por exemplo, um acúmulo de relatórios na web ou uma biblioteca de livros avançados ou até mesmo os dados que exibem um grande número de mensagens de spam. Isso é o mesmo que desmembrar um banco de dados convencional utilizando o SQL , a Linguagem de Consulta Estruturada que tem sido geralmente utilizada no mundo dos produtos por um bom tempo. Sobre a chance de que você tenha uma reunião de livros computadorizados, por exemplo, você poderia executar uma pergunta especialmente designada que fornece para você um resumo de cada um dos escritores - ou um resumo de cada um dos escritores que espalharam um assunto específico.

"Você tem um dialeto do tipo SQL que torna simples formar perguntas especialmente indicadas ou repetir perguntas - e você não precisa fazer nenhuma programação. Você simplesmente classifica a consulta em uma linha de convocação", diz Urs Hölzle, o homem que atualiza a base do Google.

A distinção é que a Dremel pode lidar com medidas de dados do tamanho da Web a uma velocidade rápida. Conforme indicado pelo documento do Google, você pode fazer perguntas em vários petabytes (um grande número de gigabytes) em questão de segundos.

O Hadoop já fornece instrumentos para executar consultas semelhantes a SQL em grandes conjuntos de dados. Empreendimentos de irmãs, por exemplo, Pig e Hive foram montados por essa mesma razão. Ao mesmo tempo, com o Hadoop, há tempo de folga. É um estágio de "transformação de grupo". Você provê para isso um empreendimento. Demora alguns minutos para executar o trabalho - ou algumas horas. E depois disso você obtém o resultado. Em qualquer caso, a Dremel era particularmente destinada a questões de momento.
Google Innovations in Software
A Dremel pode executar inúmeros questionamentos sobre tais dados que normalmente obrigariam um agrupamento de ocupações da Mapreduce, porém em uma pequena quantidade do tempo de execução. Hölzle diz que pode fazer uma pergunta sobre um petabyte de dados em cerca de três segundos.

De acordo com Armando Fox, isso é notável. O Hadoop é a peça central do desenvolvimento do "Big Data", um esforço geral para fabricar instrumentos que podem investigar muitos dados. De qualquer forma, com os dispositivos de Big Data de hoje, frequentemente há uma desvantagem. Você não pode examinar exatamente os dados com a taxa e a exatidão que você espera dos dispositivos de investigação de dados convencionais ou de "sagacidade de negócios". Ainda com a Dremel, diz Fox, você pode.

Eles descobriram como consolidar a investigação em grande escala com a capacidade de realmente absorver os dados, e eles destruíram de uma maneira que eu não pensaria que fosse concebível, diz ele. O alcance dos dados e a velocidade com que você pode investigar agradavelmente os dados são verdadeiramente surpreendentes. Indivíduos fizeram frameworks de big data recentemente, mas antes de Dremel, ninguém tinha realmente feito um framework tão grande e tão rápido.

"Como regra geral, você precisa fazer um ou outro. Quanto mais você faz um, mais precisa abandonar o outro. De qualquer forma, com a Dremel, eles fizeram os dois."

Antes de Dremel, ninguém tinha feito realmente um quadro tão grande e tão rápido. Geralmente, você precisa fazer um ou outro. Quanto mais você faz um, mais precisa abandonar o outro. Seja como for com Dremel, eles fizeram as duas coisas.

Como indicado pelo documento do Google, o palco tem sido utilizado no Google desde 2006, com "milhares" de Googlers utilizando-o para dissecar tudo, desde os relatórios de acidentes de produtos para diferentes administrações do Google até a conduta de placas dentro dos focos de dados da organização. Algumas vezes, o instrumento é utilizado com muitos servidores, em algum momento com milhares.

Apesar da conquista inquestionável do Hadoop, Mike Olson, da Cloudera, diz que as organizações e engenheiros que fabricaram o palco foram bastante reduzidos das praças. E é assim que o Hadoop faz o Big Data parecer pequeno.

About the Author

Simplilearn is one of the world’s leading providers of online training for Digital Marketing, Cloud Computing, Project Management, Data Science, IT, Software Development, and many other emerging technologies. Based in San Francisco, California, and Bangalore, India, Simplilearn has helped more than 500,000 students, professionals and companies across 200 countries get trained, upskilled, and acquire certifications.

Recommended articles for you

How to become a Big Data Hadoop Architect - Learning Paths E...

Article

7 Ways the Big Data Hadoop Master Program can Boost your Big...

Article

How Hadoop 2 is Big Data's Big Leap Forward?

Article

{{detail.h1_tag}}

{{detail.display_name}}
{{author.author_name}} {{author.author_name}}

{{author.author_name}}

{{detail.full_name}}

Published on {{detail.created_at| date}} {{detail.duration}}

  • {{detail.date}}
  • Views {{detail.downloads}}
  • {{detail.time}} {{detail.time_zone_code}}

Registrants:{{detail.downloads}}

Downloaded:{{detail.downloads}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}}

Hosted By

Profile

{{author.author_name}}

{{author.author_name}}

{{author.about_author}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}!

First Name*
Last Name*
Email*
Company*
Phone Number*

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

{{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}} Expired

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}

Email
{{ queryPhoneCode }}
Phone Number

Show full article video

Name Date Place
{{classRoomData.Date}} {{classRoomData.Place}} View Details

About the Author

{{detail.author_biography}}

About the Author

{{author.about_author}}

Recommended articles for you

{{ article.title }}

Article