La trampa del BigData

IVAN CHAVEZ
January 30, 2023
Blog Post

No te dicen que tan BIG Necesita ser tu DATA, para considerarla BigData.

Acá te comparto 4 niveles del BigDatometro que te ayudarán a tener mejor perspectiva:

1.- BigData Nivel Básica 🐌

El clásico SQL + Excel.

Los usuarios técnicos hacen consultas a bases de datos, mientras que usuarios de negocio prefieren Excel.

Este nivel funciona bien por debajo del millón de registros en una hoja de cálculo hasta que nuestra hoja de cálculo se pone lenta.

Probablemente, funcione bien para el rango de los MEGAS

También funciona bien mientras el desempeño de la base de datos no es afectado

¿Más potencia? 🤔
🟣 Excel, incrementa las capacidades de máquina local
🔵 Bases de datos, incrementa las capacidades del servidor o considera migrar a un almacén de datos.

2.- BigData Nivel Intermedia 🏃‍♂️

Los usuarios de negocio se ven forzados a migrar a soluciones de análisis de datos como Tableau o Power BI.

Funciona bien la manipulación de información con librerías conocidas de Python.

Acá hablamos posiblemente del rango de cientos de MEGAS hasta una decena de GB’s.

Todo funciona bien hasta que los dashboards no se cargan o tarda demasiado en procesar la información.

¿Más potencia? 🤔
Python:
🟢 Mejora la capacidad de máquina local o conéctate remoto a una instancia con mejores capacidades de procesamiento.
🟢 Considera usar librerías/soluciones de BigData como PySpark/Hadoop

Tableau:
⭕ Incrementa las capacidades del servidor.
⭕ Considera utilizar PyTab para correr cálculos complejos en server + PySpark

PowerBI:
🟠 Probablemente, Microsoft te quiera vender Synapse y pasarte a DataBricks.

3.- BigData Nivel Avanzada 🏎️

Las organizaciones se dan cuenta de que necesitan un equipo sólido de ingenieros de datos y conocimientos en Hadoop/Spark son necesarios.

Acá la ejecución de librerías como MapReduce o el uso de PySpark podría seguir siendo en local/On-Premise.

Se tienen soluciones definidas y establecidas para la creación de flujos de datos.

Todo funciona bien hasta que nuestras máquinas locales o servidores On-Premise comienzan a quedarse cortos a nivel hardware y nuestras necesidades de procesamiento sobrepasan la capacidad instalada.

Acá hablamos de decenas a cientos de Gigas.

¿Más potencia? 🤔
Hardware:
⏺️ Usar solución empaquetada para correr librerías de BigData.
⏺️ Crea instancias dedicadas al procesamiento de datos y usa funciones serverless si es posible

4.- BigData Nivel Unleash the beast 🔥🚀

Los ingenieros de datos con conocimiento de soluciones en la nube conocen muy bien sus necesidades.

Entienden las referencias: Hadoop – CPU (Cores) & Spark – RAM

Optimizan los costos de infraestructura y procesamiento haciendo uso de:
– Horizontal/Vertical & Dynamic Scaling
– Funciones serverless & dominio de IaC

Acá hablamos que estas soluciones comienzan a hacer sentido en los cientos de GB’s y tu presupuesto es el límite.

¿Qué soluciones de bigdata tiene cada proveedor de nube?

AWS – Amazon EMR
Azure – HDInsights
GCP – Dataproc
Alibaba – E-MapReduce

Sígueme para más consejos:

IVAN CHAVEZ

Hi there! If you’re into the data world like me, then you’re in the right place.

In this website, we’re going to dive into the exciting world of DataOps & Analytics. From the latest trends and innovations to practical tips and tricks, I got everything you need to stay on top of the game.
So grab a cup of coffee (or your beverage of choice), get comfortable, and let’s get started!

-IC