Spotify AWS Glue ETL Pipeline (Visual + PySpark)

Overview

This project builds an AWS data pipeline using S3 + AWS Glue Studio (Visual ETL) + Glue Data Catalog Crawler + Athena + QuickSight.

What it does

Reads raw CSV datasets from S3 staging
Performs joins:
- Artist ↔ Album (artist.id = album.artist_id)
- Join result ↔ Track (track.track_id = album.track_id)
Drops unnecessary columns
Writes curated output as Parquet (Snappy) to S3 datawarehouse
Runs basic data quality rule (ColumnCount > 0)
Makes the data queryable via Crawler + Athena, and visualizable in QuickSight

Architecture

Glue Studio Visual Job

Tech Stack

AWS S3 (staging + data warehouse)
AWS Glue Studio (Visual ETL) + PySpark
AWS Glue Data Catalog + Crawler
Amazon Athena
Amazon QuickSight

Input Data (S3 Staging)

artists.csv
albums.csv
track.csv

Output (S3 Data Warehouse)

Parquet (snappy) curated dataset

How to Run

Upload input CSVs to your S3 staging bucket
Create an AWS Glue Job (Glue Studio Visual)
Attach an IAM role with permissions for S3, Glue, Logs, and Athena
Run the job
Run Glue Crawler on the datawarehouse S3 path
Query in Athena
Build dashboard in QuickSight

Code

PySpark Glue script: src/glue_job.py
Visual job JSON: src/glue_visual_job.json

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
Architecture.png		Architecture.png
Flowchart.png		Flowchart.png
README.md		README.md
glue_job.py		glue_job.py
glue_visual_job.json		glue_visual_job.json
visual ETL.png		visual ETL.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Spotify AWS Glue ETL Pipeline (Visual + PySpark)

Overview

What it does

Architecture

Glue Studio Visual Job

Tech Stack

Input Data (S3 Staging)

Output (S3 Data Warehouse)

How to Run

Code

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Spotify AWS Glue ETL Pipeline (Visual + PySpark)

Overview

What it does

Architecture

Glue Studio Visual Job

Tech Stack

Input Data (S3 Staging)

Output (S3 Data Warehouse)

How to Run

Code

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages