🛠️ Hadoop & Spark 기반의 데이터 파이프라인 구축 프로젝트

이 프로젝트는 Hadoop과 Spark를 사용하여 배치 파이프라인과 스트리밍 파이프라인을 처리하고 분석할 수 있는 환경을 구축하는 것을 목표로 합니다. 대용량 데이터의 효율적인 처리와 실시간 데이터 스트리밍 분석을 통해 비즈니스 인사이트를 도출합니다.

📋 프로젝트 개요

배치 파이프라인: 정해진 주기에 따라 대량의 데이터를 일괄 처리
스트리밍 파이프라인: 실시간으로 데이터가 수집되고 처리 (Streaming, Structured)

이 프로젝트는 두 가지 파이프라인을 동시에 운영하여 데이터를 수집, 저장, 처리, 분석하는 환경을 제공합니다.

🚀 주요 기능

Hadoop 기반 배치 처리: HDFS에 저장된 대용량 데이터를 Spark로 처리
Spark 스트리밍: 실시간 데이터 스트리밍 처리 및 분석
데이터 시각화: 분석된 데이터를 다양한 시각화 도구로 시각화
유연한 확장성: 대용량 데이터를 처리할 수 있는 확장 가능한 환경 구축

🛠️ 사용된 기술 스택

Apache Hadoop: 분산 스토리지 및 데이터 처리
Apache Spark: 실시간 데이터 처리 및 분석
Kafka: 스트리밍 데이터 수집
HDFS: 분산 파일 시스템
YARN: 자원 관리 및 클러스터 관리

🖥️ 설치 및 실행 방법

⚙️ 환경 설정

1.	Hadoop 및 Spark를 설치합니다.
2.	Kafka 클러스터를 설정합니다.
3.	프로젝트 코드를 클론합니다.

   git clone https://github.com/jms0522/hadoop_system.git
   cd hadoop_system

📈 결과 분석 및 시각화

분석된 데이터는 notebooks/ 디렉토리에서 Jupyter Notebook을 통해 시각화할 수 있습니다. 다양한 시각화 도구를 활용해 데이터 인사이트를 도출합니다.

📞 문의

프로젝트에 대한 문의 사항이 있으시면 이메일로 연락주세요.

Related Projects

bigdata-playground

A complete example of a big data application using : Kubernetes (kops/aws), Apache Spark SQL/Stre...

12 Dec 2017 208

LearningSparkV2

This is the github repo for Learning Spark: Lightning-Fast Data Analytics [2nd Edition]

10 Feb 2019 1,178

sparkini

base docker compose to setup the data engineering env in local

21 Jul 2024 0

pyspark-maestro

This repo contains implementations of PySpark for real-world use cases for batch data processing,...

23 Jul 2024 1

Sales-Analytics-Pipeline

Data analytics pipeline built with Apache Spark and Hadoop for processing and analyzing large-sca...

17 Jul 2024 0

hdfs-stream-processing

Streaming data processing using Hadoop HDFS, Spark, Kafka, Minio, Elasticsearch

21 Jul 2024 1

DIY-A-Cluster

How to Do-It-Yourself A Cluster for Spark & Hadoop

16 Sep 2016 11

cdhproject

hadoop各组件使用，持续更新

21 Nov 2017 896

spark-workshop

Apache Spark™ and Scala Workshops

10 Mar 2016 260

spark-py-notebooks

Apache Spark & Python (pySpark) tutorials for Big Data Analysis and Machine Learning as IPython /...

06 May 2015 1,614

spark

Apache Spark - A unified analytics engine for large-scale data processing

25 Feb 2014 38,255

eat_pyspark_in_10_days

pyspark🍒🥭 is delicious，just eat it!😋😋

24 Dec 2020 684

learning-hadoop-and-spark

Companion to Learning Hadoop and Learning Spark courses on Linked In Learning

22 Jun 2019 182

apache-spark-docker

Dockerizing an Apache Spark Standalone Cluster

19 Jul 2021 40

utils4s

scala、spark使用过程中，各种测试用例以及相关资料整理

24 Sep 2015 1,089