Sem resumo de edição
Linha 35: Linha 35:
<br>
<br>


== Hadoop Map Reduce ==
== Hadoop MapReduce ==


* Se ouve mais sobre Map Reduce no que HDFS em relação ao Hadoop, por dois motivos:
* Se ouve mais sobre MapReduce no que HDFS em relação ao Hadoop, por dois motivos:
** É a ferramenta que realmente processa os dados;
** É a ferramenta que realmente processa os dados;
** As pessoas ficam fascinadas quando trabalham com isso.
** As pessoas ficam fascinadas quando trabalham com isso.
<br>


* Hadoop não é um Sistema de Banco de Dados, é mais próximo de um sistema de armazenamento de dados, por isso é necessário um sistema como o MapReduce para realizar o processamento desses dados.
<br>
* O MapReduce realiza vários trabalhos, cada qual com uma aplicação separada, que entra nos dados e retira informações conforme necessário.
** Utilizando MapReduce ao invés de comandos, como no SQL, aumenta a complexidade porém dá mais poder pra quem os processa.
<br>
* Existem ferramentas que diminuem a complexidade, é o caso do Hive[http://hive.apache.org/] também da apache, que ajuda a converter linguagens de comando para trabalhos em MapReduce.
<br>





Edição das 22h19min de 31 de maio de 2015

Hadoop



   Segundo [1] você não pode ter uma longa conversa sobre Big Data[2] sem que um elefante entre na sala: Hadoop.


   Hadoop é uma plataforma open source mantida pela Apache Software Foundation que tem se mostrado muito útil tanto no armazenamento quanto no processamento de grandes volumes de dados, de forma barata e eficiente. O Projeto é mantido pela Apache, porém conta com a colaboração de várias grandes empresas, entre elas: Yahoo, Facebook, Google e IBM[3].


   Basicamente Hadoop é uma forma de armazenar grandes quantidades de dados distribuídos em máquinas distintas e, em seguida, distribuir também o processamento desses dados em cada máquina.

  • Descrição da Apache em relação ao Hadoop:
    • É um Framework que permite o processamento distribuído de grandes quantidades de dados em clusters utilizando modelos de programação simples;
    • Foi projetado para trabalhar desde uma única máquina a várias, cada uma delas oferecendo armazenamento e processamento próprios;
    • A Biblioteca em si foi projetada para detectar e lidar com falhas, fornecendo alta disponibilidade.


  • O Hadoop é tido como uma solução adequada para Big Data por vários motivos:
    • É um projeto open source, como já informado, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração. Por causa desta característica, vários projetos derivados ou complementares foram - e ainda são - criados;
    • Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas;
    • O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados;
    • O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema.


   Hadoop é baseado em duas partes principais, um sistema de arquivo HDFS (Hadoop Distributed File System) e o sistema para distribuir o processamento MapReduce.

Hadoop DFS


Hadoop MapReduce

  • Se ouve mais sobre MapReduce no que HDFS em relação ao Hadoop, por dois motivos:
    • É a ferramenta que realmente processa os dados;
    • As pessoas ficam fascinadas quando trabalham com isso.


  • Hadoop não é um Sistema de Banco de Dados, é mais próximo de um sistema de armazenamento de dados, por isso é necessário um sistema como o MapReduce para realizar o processamento desses dados.


  • O MapReduce realiza vários trabalhos, cada qual com uma aplicação separada, que entra nos dados e retira informações conforme necessário.
    • Utilizando MapReduce ao invés de comandos, como no SQL, aumenta a complexidade porém dá mais poder pra quem os processa.


  • Existem ferramentas que diminuem a complexidade, é o caso do Hive[4] também da apache, que ajuda a converter linguagens de comando para trabalhos em MapReduce.




Conclusão


Referências