이 프로젝트는 Hadoop과 Spark를 사용하여 배치 파이프라인과 스트리밍 파이프라인을 처리하고 분석할 수 있는 환경을 구축하는 것을 목표로 합니다. 대용량 데이터의 효율적인 처리와 실시간 데이터 스트리밍 분석을 통해 비즈니스 인사이트를 도출합니다.
이 프로젝트는 두 가지 파이프라인을 동시에 운영하여 데이터를 수집, 저장, 처리, 분석하는 환경을 제공합니다.
⚙️ 환경 설정
1. Hadoop 및 Spark를 설치합니다.
2. Kafka 클러스터를 설정합니다.
3. 프로젝트 코드를 클론합니다.
git clone https://github.com/jms0522/hadoop_system.git
cd hadoop_system
분석된 데이터는 notebooks/ 디렉토리에서 Jupyter Notebook을 통해 시각화할 수 있습니다. 다양한 시각화 도구를 활용해 데이터 인사이트를 도출합니다.
📞 문의
프로젝트에 대한 문의 사항이 있으시면 이메일로 연락주세요.