Spark cluster with JupyterLab on Docker

This repository was created for study and curiosity about Apache Spark, mainly how to make a cluster and integrate with App like notebook, for example, JupiterLab. Here, the Docker container and Docker Compose were used as infrastructure of this project.

Apache Spark

In the repository have the Spark version 3.2.1 with Hadoop bin 3.2.

Download here: Apache Spark.

Dataset sample - Ebola cases

The dataset used for this project was Ebola Cases get from Data World.

Reference

Those are my references:

Apache Spark Cluster on Docker (ft. a JupyterLab Interface) by André Perez.
Doc Apache Spark
Formación Apache Spark by Albert Coronado Calzada.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
spark-3.2.1-bin-hadoop3.2		spark-3.2.1-bin-hadoop3.2
README.md		README.md
docker-compose.yml		docker-compose.yml
ebola_data_db_format.csv		ebola_data_db_format.csv
jupyter-base-dockerfile.dockerfile		jupyter-base-dockerfile.dockerfile
python-with-java-base-dockerfile.dockerfile		python-with-java-base-dockerfile.dockerfile
spark-base-dockerfile.dockerfile		spark-base-dockerfile.dockerfile
spark-master-dockerfile.dockerfile		spark-master-dockerfile.dockerfile
spark-worker-dockerfile.dockerfile		spark-worker-dockerfile.dockerfile

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spark cluster with JupyterLab on Docker

Apache Spark

Dataset sample - Ebola cases

Reference

About

Releases

Packages

Languages

Guilherme-Esplugues/spark-cluster-with-jupyterlab-on-docker

Folders and files

Latest commit

History

Repository files navigation

Spark cluster with JupyterLab on Docker

Apache Spark

Dataset sample - Ebola cases

Reference

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages