En nuestra reunión de Junio, Manuel Chacón y Juan Andrés Tejero, Data Scientist y Big Data Engineer en Isotrol, dieron una estupenda charla sobre cómo manejar volúmenes masivos de datos (Big Data) con Spark y R.
Manuel comenzó repasando el concepto de ‘Big Data’ y las varias ‘V’ que lo caracterizan (Volumen, Variedad, Velocidad…), para después introducir los sistemas de computación distribuida basados en Hadoop, MapReduce, y Spark. Seguidamente, Juan Andrés dió un estupendo repaso a los distintos componentes de Spark (core, SQL, Streaming, MLlib, GraphX) para después comparar los dos principales paquetes disponibles para utilizar Spark desde un entorno R: SparkR y sparklyr.
Finalmente hicieron algunos demostraciones prácticas con sparklyr: importación, manipulación, visualización y ajuste de modelos de MLlib, y tratamiento de datos en tiempo real (Streaming).