Contar palabras de un texto usando Spark con PySpark

Posted on mar 03 julio 2018 in Tutorial Python • Tagged with Python, Spark, PySpark • 5 min read

En el artículo anterior se explicó el procedimiento de instalación de Spark usando Docker. En este artículo se usará un texto tomado de la página de la ONU, de ahí se extrae las líneas y se cuentan las palabras.

A continuación el texto que se va a utilizar (lo pueden …


Continue reading

Como correr Apache Spark desde una imagen Docker

Posted on lun 02 julio 2018 in Tutorial Python • Tagged with Python, Spark, Docker, Big Data, Data Science, Ciencia de Datos • 3 min read

En este artículo se explicará la ejecución de Apache Spark usando un contenedor Docker, en vez de usar el procedimiento de instalación de Spark (instalar java, scala y spark).

Apache Spark proporciona una interfaz para la programación de clusters completos con paralelismos de Datos implicito y tolerancia a fallos. Tiene …


Continue reading