Tecnología Big Data

BIG DATA

El empleo de tecnologías Big Data permite transformar cantidades masivas de datos en conocimiento aplicable, ofreciendo a las empresas la posibilidad de extraer, a través de los datos que generan y de otras fuentes externas, información de valor sobre sus clientes, productos y servicios, permitiéndoles obtener ventajas competitivas. Estas tecnologías ofrecen la base para productos analíticos avanzados como Analyticmate Bidoop Layer, capaces de realizar análisis complejos sobre grandes cantidades de datos, sin importar su naturaleza o estructura.

 
Ventajas derivadas de la tecnología Big Data


CARACTERÍSTICAS

Las principales limitaciones asociadas al tratamiento y análisis de grandes volúmenes de datos se encuentran recogidas en el denominado “Modelo de las 3 V’s”, ya apuntado en 2001 por Dough Laney (3D Data Management: Controlling Data Volume, Velocity, and Variety) en Gartner. Según este modelo, se consideran como principales características del Big Data los siguientes atributos:

Velocidad: El incremento en la velocidad de proceso de información ha permitido afrontar el reto de transformar grandes flujos de información en conocimiento en tiempo real, dando respuesta de forma más rápida a las necesidades específicas de cada negocio.
Variedad: La multiplicación de fuentes generadoras de información (emails, e-commerce, redes sociales, imágenes, vídeos, logs, etc.) se ha traducido en un incremento en la complejidad del análisis de datos.
Volumen: A medida que el volumen de datos procesado por las compañías crece exponencialmente, se ha vuelto imprescindible desarrollar modelos (analíticos o de gestión) capaces de detectar correlaciones, o simplemente gestionar, diversas fuentes de información.

Los nuevos modelos contemplan otros factores a tener en cuenta, como el alto índice de variabilidad de los datos, la necesidad de valorar su veracidad, así como la importancia de que sean visualizables a través de cuadros de mando dinámicos que faciliten la realización de informes y la toma de decisiones de negocio.

 


 

MOTORES DE BIG DATA

Aunque en el entorno Big Data se hable inicialmente de las tres Vs, es la “V” de la velocidad de generación de datos la que condiciona en buena parte cómo se abordan las necesidades de negocio hoy día.

Los flujos de datos masivos, que hace un tiempo no se podían aprovechar ni almacenar, hoy día son consumibles de una forma útil. Dicho de otra forma, de un entorno de arquitectura tradicional donde se mantenía el estado del negocio, se ha pasado a otro donde hay flujos continuos de información – con mucho más volumen y de múltiples tipos – entre fuentes y aplicaciones.

En las iniciativas Big Data hay tres motores principales de procesamiento (o big data frameworks) que se exponen a continuación.

HADOOP

El motor Hadoop es una opción ideal siempre que la opción MapReduce de procesamiento por lotes o batch, con separación en trabajos (jobs) pequeños diseminados en un cluster y con un resultado recombinado, sea la adecuada.

SPARK

Spark es un motor de procesamiento alternativo, con manejo de trabajos (jobs) en memoria, que permite una distribución de procesos más en paralelo. Es por esto que puede decirse que es near real time.

FLINK

Flink constituye una tercera opción como procesamiento de datos, que se diferencia de las anteriores en que soporta flujos de datos (streaming) continuos tanto del lado de las API, como en el lado de la ejecución/respuesta. Esto permite obtener unas latencias mínimas y por tanto un resultado de ejecución en tiempo real.