jueves, 1 de septiembre de 2016

Que es Hadoop?

logo de hadoop
visite: sitiobigdata.com
Apache Hadoop es un framework de soft que soporta apps distribuidas bajo lo que se denomina licencia libre. Permite a los aplicativos ajetrearse con miles de nodes y petabytes de data. Hadoop se inspiró en los docs google para Mapreduce y Google File System (Gfs). 


Hadoop es un esquema de high level (nivel alto) de Apache que está siendo realizado y usado por una enorme comunidad global de personas que contribuyen, a través del lenguaje Java. Yahoo! ha sido el mas grande de los contribuyentes a hadoop, y lo usa extensivamente en sus productos



Características de Hadoop


Arquitectura


Hadoop consiste básicamente en el Hadoop Common, que proporciona acercamiento a los sistemas de arch. (file syetems) soportados por Hadoop. El package de software The Hadoop Common contiene los archivos .jar y los scripts precisados para ejecutar Hadoop. El package todavía proporciona código fuente, documentos, y un apartado de contribuciones que incluye proyectos de la Comunidad Hadoop.
Detalle master y slave node
visite:sitiobigdata.com

Uno de los funcionamientos clave es que para la programación efectiva del conjunto de tareas, cada método de ficheros debe memorizar y brindar su localización: la denominación del rack (más justamente, del switch) donde se encuentra el nodo trabajador. 

Las apps Hadoop pueden poseer esta info para realizar las tareas en el donde figuran los datos,y en su defecto, en el mismo rack/switch, minimizando así el tráfico en la red troncal (backbone traffic). 

El file system o sistema de archivos Hdfs utiliza esto cuando clona o replica data, para tratar de contener las diversas copias de diversos datos. El objetivo es minimizar el impacto de un microcorte de energía de rack o de defecto o fallo de interruptor de modo que igualmente si se producen estos hechos, la data igualmente puedan ser legibles. 

Un clúster tipificado Hadoop incluye un master node o nodo maestro y múltiples slave nodes (nodos esclavos). El master node consiste en jobtracker (rastreador de trabajo), tasktracker (rastreador de tareas), namenode (node de nombres), y datanode (node de datos). Un esclavo o compute node (nódulo de balance) consisten en un data node (nodo de datos) y un rastreador de tareas. Hadoop requiere contener instalados entre nodos en el clúster Jre 1.6 o superior, y SSH.

Si quieres leer mas articulos como este te invitamos a la comunidad de sitiobigdata.com: http://sitiobigdata.com/index.php/2016/11/28/big-data-3-v-variedad-velocidad-volumen/


Que es Apache Hive?



Por definición Apache Hive es una infraestructura de almacenaje de data construida sobre Hadoop para brindar agrupación, consulta, y descomposición de datos.


Inicialmente desarrollado por Facebook, Apache Hive es en la actualidad aprovechada y desarrollada por otras compañías como Netflix y la Financial Industry Regulatory Authority (Finra).

 Amazon mantiene un derivado del soft de Apache Hive incluida en Amazon Elastic Mapreduce en sus servicios Amazon Web Services.


Características de Apache Hive


Para mas información visite: www.sitiobigdata.com
Apache Hive soporta el estudio de grandes conjuntos de data almacenada bajo Hdfs de Hadoop y en estilos compatibles como el sistema de anaqueles Amazon S3. Ofrece un verbo de consultas gravitado en Sql convocado Hiveql5 con planes para observar y acortar consultas de fase transparente en Mapreduce, Apache Tez6 y tareas de Spark.

Los tres motores de consumación pueden jalar bajo Yarn. Para avivar las consultas, Hive provee índices, que incluyen índices de bitmaps.


Otros tipos de características de Hive incluyen:

  • Indexación para otorgar puesta en marcha, tipo de índice que suma la compactación e índices de bitmaps. Otros sujetos de índices serán incluidos en futuras versiones. 
  • Diferentes formas de almacenaje como ejemplar, Rcfile, Hbase, Orc, y otros.
  • Almacenamiento de metadatos en pedestales de aspectos relacionales, lo que permite dosificar el periodo para proceder comprobaciones semánticas durante la confección de consultas.
  • Operaciones sobre data comprimida almacenados en el ecosistema Hadoop usando cálculos que incluyen Deflate, Bwt, snappy, etc. 
  • Funciones establecidas por el beneficiario (Udf) para urdir épocas, tomos, y otras herramientas de minería de numeros. Hive soporta la cabida de las actuaciones prohibidas por el afortunado de forma de abordar asuntos no tenido en cuenta. 
  • Consultas Sql (Hiveql), las cuales son convertidas automáticamente a Mapreduce o Tez, o ocupaciones Spark. Por quebranto, Hive almacena sus metadatos en una almohadilla de elementos apache Derby, luego puede ser configurado para esgrimir Mysql.

Si quieres leer mas articulos como este te invitamos a la comunidad de sitiobigdata.com:
http://sitiobigdata.com/index.php/2016/11/28/big-data-3-v-variedad-velocidad-volumen/