Glosario de Big Data

Apache Ambari logo

Ambari

Ambari

Es una herramienta de gestión vía interfaz web que permite implementar y administrar clústers de Apache Hadoop. Su desarrollo está siendo dirigido por ingenieros de Hortonworoks, que incluyen en su plataforma de datos “Ambari Hortonworks”.

Más información: http://ambari.apache.org

Sistema de serialización de datos optimizado para Hadoop/MapReduce.

Avro

Avro

Es un sistema de serialización de datos optimizado para Hadoop/MapReduce. Tiene la ventaja de ser compacto, flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).

Más información: https://avro.apache.org

Bigtop

Bigtop

Es un esfuerzo para crear un proceso más formal o marco de referencia para las pruebas de paquetización e interoperabilidad de sub-proyectos Hadoop, HBase y Spark (entre otros) y sus componentes relacionados, con el objetivo de mejorar la plataforma en su conjunto.

Más información: http://bigtop.apache.org

Base de datos distribuida

Cassandra

Cassandra

Es una base de datos distribuida desarrollada inicialmente por Facebook. Diseñada para manejar grandes cantidades de datos distribuidos a través de servidores commodity, tiene como características un arquitectura de tipo "key/value", el no tener ningún punto único de fallo (SPOF), un método de replicación de información basado en "gossip protocol" y la problemática "eventual consistency".

Más información: http://cassandra.apache.org

 Carga masiva de varios ficheros texto dentro de un Cluster Hadoop

Chukwa

Chukwa

Es un subproyecto dedicado a la carga masiva de varios ficheros texto dentro de un clúster Hadoop (ETL). Chukwa se construye bajo el sistema de archivos distribuido (HDFS) y el marco MapReduce y hereda la escalabilidad y robustez de Hadoop. También incluye un conjunto de herramientas flexible y potente para la visualización y análisis de los resultados.

Más información: https://chukwa.apache.org

Consultas interactivas para el análisis de datos anidados

Dremel

Dremel

Es un sistema de consultas interactivo para el análisis de datos anidados de sólo-lectura. Es una solución ad-hoc escalable, que mediante la combinación de niveles de múltiples árboles de ejecución y el diseño de columnas de datos, es capaz de ejecutar consultas sobre tablas de agregación de un billón de filas en segundos. El sistema escala a miles de CPUs y petabytes de datos, y cuenta con miles de usuarios en Google.

Apache Drill está inspirado en Dremel

Más información: http://research.google.com/pubs/pub36632.html

Drill

Drill

Drill es un framework abierto de la fundación Apache para el soporte intensivo de datos distribuidos, orientado al análisis de grandes volúmenes de datos.

Más información: https://drill.apache.org

ELK

ELK

ELK es el acrónimo formado por Elasticsearch (Elastic en la actualidad), Logstash y Kibana. Es una solución formada por estos tres productos para el almacenamiento, recolección y dashboards de analítica de logs de sistemas.

Más información: https://www.elastic.co

 

Apache Flink

Flink

Flink

Apache Flink es un motor o framework de procesamiento que combina las posibiidades de procesamiento en batch y en streaming. Esto hace que sea una alternativa interesante a Spark y Hadoop.

Más información: https://flink.apache.org/

Marco para aportar datos a Hadoop

Flume

Flume

Es una herramienta o solución distribuida y de alta disponibilidad, para alimentar datos a Hadoop. 

Más información: https://flume.apache.org

Plataforma de computación distribuida

Hama

Hama

Es una plataforma de computación distribuida basada en técnicas de computación paralelas masivas para cálculos científicos, de matriz, grafos y algoritmos de redes.

Más información: http://hama.apache.org

BBDD NoSQL de baja latencia

HBase

HBase

Es una SGBD NoSQL de baja latencia. Se trata de la versión java opensource de Hadoop de la famosa BDD NoSQL de Google: BigTable. Como principales características podemos destacar: datos almacenados en columnas, sistema de versioning de los datos, consistencia de las escrituras y lecturas y recuperación automática en caso de fallos. 

Más información: https://hbase.apache.org

Acceso fácil a cualquier fichero en HDFS

HCatalog

HCatalog

Ofrece una capa de abstracción de acceso a los datos. Permite a los usuarios de Hive, Pig o MapReduce acceder facilmente a cualquier fichero en HDFS sin preocuparse del formato que puede tener este fichero (sea CSV, SequenceFile, JSON etc). 

Capa de almacenamiento de Hadoop

HDFS

HDFS

(Hadoop Distributed File System), la capa de almacenamiento de Hadoop, es un sistema de fichero distribuido escrito en java, escalable, tolerante a fallos. Aunque Hadoop pueda funcionar con varios sistemas de ficheros (sistema de ficheros locales de Linux, GlusterFS, S3 de Amazon...) HDFS se desmarca de ellos por ser totalmente compatible con MapReduce y ofrecer la optimización de "localidad de los datos", lo cual lo convierte en la solución "natural" de Hadoop.

Hive

Hive

Apache Hive es un software para la consulta y gestión de grandes conjuntos de datos distribuidos. Hive provee una capa que permite el acceso a los datos mediante un lenguaje de tipo SQL denominado HiveQL.

Más información: http://hive.apache.org

Apache Hue

Hue

Hue

Apache HUE (Hadoop User Experience) es un interfaz web para el análisis de datos de Apache Hadoop.

Más información: http://gethue.com 

 

Apache Impala

Impala

Impala

Es un motor (SQL) de consultas de software abierto que corre sobre Apache Hadoop y permite hacer queries, con una baja latencia, sobre datos en HDFS y HBase.

Más información: http://impala.apache.org 

 

 

Kafka

Kafka

Es un sistema distribuido de publicación-suscripción de mensajería que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar estos datos en un sitio web de gran consumo. Este tipo de datos (páginas vistas, búsquedas y otras acciones del usuario) son un ingrediente clave en la web actual.

Más información: http://kafka.apache.org

Sistema de BBDD NoSQL orientado a documentos de código aberto

MongoDB

MongoDB

Es un sistema de BBDD NoSQL orientado a documentos de código abierto. Por ser de tipo documentos, las estructuras de datos se guardan en documentos con un esquema dinámico pero siguiendo la notación de JSON. Estas estructuras, que son denominadas por MongoDB como BSON, son dinámicas, lo que implica que no exista un esquema predefinido, pudiendo un documento no tener todos los campos definidos para este documento. Esto supone que la integración de los datos en ciertas aplicaciones sea más fácil y rápida.

Más información: https://www.mongodb.org

Base de datos para gráficos de código abierto

Neo4j

Neo4j

Es una base de datos de grafos, de código abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph).

Más información: http://neo4j.com

Apache NiFi

NiFi

NiFi

Es un software de distribución y procesamiento de flujos de datos entre sistemas. Es seguro, escalable, altamente configurable y permite seguir el linaje del dato.

Más información: https://nifi.apache.org

Sistema de gestión de WorkFlows

Oozie

Oozie

Es un sistema de gestión de WorkFlows (flujos de trabajo) que permite a los usuarios definir una serie de trabajos escritos en varios lenguajes, como MapReduce (Java), Pig y Hive, creando entre ellos un flujo de procesos (jobs) con lógica. Oozie permite a los usuarios especificar, por ejemplo, que una determinada consulta sólo debe iniciarse después de determinados trabajos previos en los que se basa para recoger datos que se han completado.

Más información: http://oozie.apache.org

Parquet

Parquet

Es un sistema de almacenamiento de datos orientado a columnas sobre HDFS para el entorno del ecosistema Hadoop. 

Más información: https://parquet.apache.org 

Desarrollado por Yahoo para facilitar la programación de MapReduce

Pig

Pig

Es una plataforma y un lenguaje de programación de alto nivel de Apache para facilitar la programación de MapReduce sobre Hadoop. Es relativamente fácil de aprender (ya que es muy expresivo y legible) y es eficiente frente a grandes flujos de datos.

Más información: https://pig.apache.org

Entorno para computación y gráficos estadísticos

R

R

Es un lenguaje y un entorno para computación y gráficos estadísticos. R ofrece una gran variedad de estadísticas (modelos lineales y no lineales, tests estadísticos clásicos, análisis de series de tiempo, clasificación, clustering, ...) y las técnicas gráficas. Además es altamente extensible y existen paquetes de desarrollo integrado como R-Studio.

Más información: https://www.r-project.org

Apache Samza

Samza

Samza

Es un motor big data, de la fundación Apache, con capacidad de casi tiempo real (o near real time) gracias a la utilización de Kafka para manejo de streams de datos. Samza utiliza también YARN como gestor de datos con garantías de consistencia y seguridad.

Más información: http://samza.apache.org

 

SolR

SolR

Solr es un motor de búsqueda basado en Apache Lucene que permite buscar en tiempo real, por texto, por facetas, integración de bases NoSQL, documentos enriquecidos como Word, etc. Además es escalable y tolerante a fallos.

Más información: https://lucene.apache.org/solr/ 

 

 

Apache Spark logo

Spark

Spark

Apache Spark es un motor o framework de procesamiento distribuido, compatible con Hadoop, mucho más rápido que este debido a su procesamiento en memoria.

Spark puede correr sobre Hadoop (mediante YARN) o de forma autónoma.

Hadoop y Spark están en general orientados a problemas y usos distintos.De ahí que no se pueda decir que uno es substitutivo del otro.

Más información: http://spark.apache.org

Apache Sqoop

Sqoop

Sqoop

Es una herramienta de conectividad para mover datos desde Hadoop a sistemas de almacenamiento estructurado como bases de datos relacionales. Permite a los usuarios especificar la ubicación de destino dentro de Hadoop e instruir Sqoop para mover datos de Oracle, Teradata u otras bases de datos relacionales para cumplir el objetivo marcado.

Más información: http://sqoop.apache.org

Apache Storm

Storm

Storm

Es un sistema de computación distribuida en tiempo real, libre y de código abierto, nacido en el seno de Twitter. Storm hace fácil procesar de manera fiable flujos no estructurados de datos, haciendo en el ámbito del procesamiento en tiempo real, lo que hizo Hadoop para el procesamiento por lotes.

Más información: http://storm.apache.org 

StreamSets

StreamSets

Es una herramienta de gestión de flujos de datos (streaming y batch) y analítica que permite hacer estas operaciones desde un interfaz web.

Más información: https://streamsets.com 

 

Project Voldemort

Voldemort

Voldemort

Es un sistema de almacenamiento distribuido basado en key-value. Se utiliza en LinkedIn para ciertos problemas de almacenamiento de alta escalabilidad donde la partición funcional simple no es suficiente.

Más información: http://www.project-voldemort.com

Apache Zookeper

ZooKeeper

ZooKeeper

Es un proyecto de software de Apache, que provee un servicio de configuración centralizada y registro de nombres de código abierto para grandes sistemas distribuidos. ZooKeeper es un subproyecto de Hadoop.

Más información: https://zookeeper.apache.org