jueves, 1 de septiembre de 2016

Que es Hadoop?

logo de hadoop
visite: sitiobigdata.com
Apache Hadoop es un framework de soft que soporta apps distribuidas bajo lo que se denomina licencia libre. Permite a los aplicativos ajetrearse con miles de nodes y petabytes de data. Hadoop se inspiró en los docs google para Mapreduce y Google File System (Gfs). 


Hadoop es un esquema de high level (nivel alto) de Apache que está siendo realizado y usado por una enorme comunidad global de personas que contribuyen, a través del lenguaje Java. Yahoo! ha sido el mas grande de los contribuyentes a hadoop, y lo usa extensivamente en sus productos



Características de Hadoop


Arquitectura


Hadoop consiste básicamente en el Hadoop Common, que proporciona acercamiento a los sistemas de arch. (file syetems) soportados por Hadoop. El package de software The Hadoop Common contiene los archivos .jar y los scripts precisados para ejecutar Hadoop. El package todavía proporciona código fuente, documentos, y un apartado de contribuciones que incluye proyectos de la Comunidad Hadoop.
Detalle master y slave node
visite:sitiobigdata.com

Uno de los funcionamientos clave es que para la programación efectiva del conjunto de tareas, cada método de ficheros debe memorizar y brindar su localización: la denominación del rack (más justamente, del switch) donde se encuentra el nodo trabajador. 

Las apps Hadoop pueden poseer esta info para realizar las tareas en el donde figuran los datos,y en su defecto, en el mismo rack/switch, minimizando así el tráfico en la red troncal (backbone traffic). 

El file system o sistema de archivos Hdfs utiliza esto cuando clona o replica data, para tratar de contener las diversas copias de diversos datos. El objetivo es minimizar el impacto de un microcorte de energía de rack o de defecto o fallo de interruptor de modo que igualmente si se producen estos hechos, la data igualmente puedan ser legibles. 

Un clúster tipificado Hadoop incluye un master node o nodo maestro y múltiples slave nodes (nodos esclavos). El master node consiste en jobtracker (rastreador de trabajo), tasktracker (rastreador de tareas), namenode (node de nombres), y datanode (node de datos). Un esclavo o compute node (nódulo de balance) consisten en un data node (nodo de datos) y un rastreador de tareas. Hadoop requiere contener instalados entre nodos en el clúster Jre 1.6 o superior, y SSH.

Si quieres leer mas articulos como este te invitamos a la comunidad de sitiobigdata.com: http://sitiobigdata.com/index.php/2016/11/28/big-data-3-v-variedad-velocidad-volumen/


No hay comentarios:

Publicar un comentario