Spark

Spark en el mundo real

Un cuaderno de campo de ingeniero de datos: cada receta PySpark responde a una trampa real de producción —skew, small files, lineage explosivo, NULL que no hacen match, un count() que escanea 1,2 TB— y se verifica con una salida de consola auténtica (df.show, plan de explain, métricas de MERGE). PySpark medido e instrumentado (mejoras x34, x88), orientado a Delta Lake, ventanas temporales y calidad de datos.

20 snippets destacados

Volver al Data Lab