Spark

[Spark] 아파치 스파크(Apache Spark)란?

JustJunsu 2024. 11. 11. 23:08
728x90

1. Apache Spark란?

Apache Spark는 대규모 데이터를 빠르게 처리할 수 있는 오픈소스 분산 처리 프레임워크입니다. Spark는 대량의 데이터를 여러 서버(노드)에 분산하여 병렬로 처리할 수 있으며, 메모리 기반 처리를 통해 빠른 속도로 데이터를 분석합니다. 특히 데이터 분석, 머신러닝, 실시간 스트리밍, 그래프 처리를 지원해 다양한 데이터 분석 환경에서 널리 사용되고 있습니다.

Spark는 Hadoop MapReduce보다 성능이 뛰어난 것으로 잘 알려져 있으며, 여러 데이터 소스와 통합이 쉽고, 다양한 데이터 처리 요구에 맞는 모듈을 제공해 활용도가 높습니다.

 

2. Spark가 필요한 이유

Apache Spark는 다음과 같은 이유로 많은 빅데이터 프로젝트에서 필요합니다:

2-1. 대규모 데이터에 최적화된 속도와 성능

Spark는 인메모리 연산을 기본으로 설계되어, 데이터를 메모리에서 직접 처리합니다. 이는 디스크를 여러 번 사용하는 기존의 Hadoop MapReduce보다 훨씬 빠릅니다. Spark의 속도는 같은 데이터 크기의 경우 MapReduce보다 최대 100배 빠르며, 테라바이트(TB) 이상의 대규모 데이터를 실시간에 가까운 속도로 분석할 수 있습니다.

2-2. 다양한 데이터 분석 기능 제공

Spark는 다양한 방식으로 데이터를 처리하고 분석할 수 있도록 모듈을 제공합니다. 예를 들어, SQL 쿼리로 데이터에 접근할 수 있는 Spark SQL, 실시간 스트리밍 처리를 위한 Spark Streaming, 그리고 머신러닝 작업을 위한 MLlib 등을 통해 하나의 엔진에서 다양한 작업을 수행할 수 있습니다.

2-3. 실시간 데이터 처리 가능

Apache Spark의 Spark Streaming은 실시간 데이터 스트림을 처리할 수 있어, 데이터가 발생하는 즉시 분석 결과를 얻을 수 있습니다. 이는 스트리밍 데이터를 활용하는 서비스, 예를 들어 실시간으로 데이터를 수집하고 분석하는 IoT 시스템, 실시간 사용자 행동을 분석하는 애플리케이션 등에 유용합니다.

2-4. 확장성과 비용 효율성

Spark는 클러스터의 노드 수를 조정하여 확장할 수 있는 유연성을 가지고 있어 데이터의 규모가 증가해도 효율적으로 처리할 수 있습니다. 클라우드 서비스에서는 확장성이 더욱 좋아지며, 서버 자원을 효율적으로 관리할 수 있습니다. 예를 들어 AWS의 EMR(Amazon Elastic MapReduce)나 Google Cloud Dataproc에서 클러스터를 쉽게 생성하고 관리할 수 있습니다.

 

3. Spark의 기본 구조와 모듈

Spark는 다음과 같은 핵심 모듈로 구성되어 있습니다:

  • Spark Core: Spark의 중심 모듈로, RDD(Resilient Distributed Dataset)를 활용하여 분산 데이터 처리와 인메모리 연산을 수행합니다.
  • Spark SQL: SQL 언어를 통해 데이터를 쿼리할 수 있으며, 구조화된 데이터와 반구조화된 데이터를 처리할 수 있습니다. 다양한 데이터 소스와의 연동이 가능하여 데이터 웨어하우스나 데이터 레이크와도 쉽게 연결됩니다.
  • Spark Streaming: 실시간 데이터 스트리밍 처리 모듈로, Kafka, Flume 등과 같은 스트리밍 소스에서 데이터를 받아 실시간으로 처리합니다.
  • MLlib (Machine Learning Library): 데이터 분석과 머신러닝 모델을 쉽게 구축할 수 있는 라이브러리로, 분류, 회귀, 클러스터링 등 다양한 모델을 제공합니다.
  • GraphX: 그래프 데이터를 분석하고 그래프 알고리즘을 적용할 수 있는 모듈로, 네트워크 분석이나 소셜 그래프 분석에 유용합니다.

4. Apache Spark의 설치 및 사용 방법

4-1. Spark 설치 및 환경 설정

Apache Spark는 로컬 환경 또는 클라우드 환경에서 설치할 수 있습니다.

  • 로컬에서 Spark 설치: 로컬에서 Spark를 설치하려면 Apache Spark 공식 웹사이트에서 Spark 설치 파일을 다운로드하고, 환경 변수를 설정해야 합니다. JDK(Java Development Kit)와 Scala가 필요하므로 설치 전 확인해야 합니다.
  • 클라우드에서 Spark 사용: AWS EMR(Amazon Elastic MapReduce)나 Google Cloud Dataproc 같은 클라우드 서비스에서 Spark 클러스터를 생성하여 사용할 수 있습니다. 이러한 클라우드 서비스를 이용하면 Spark를 쉽게 설치하고 관리할 수 있으며, 클러스터의 노드를 추가하여 필요에 따라 확장할 수 있습니다.

4-2. Spark의 기본 사용 예제

RDD (Resilient Distributed Dataset) 를 활용한 간단한 분산 처리 예제: RDD는 Spark에서 데이터 처리를 위해 제공하는 불변의 데이터 구조로, 데이터를 나누어 각 노드에서 병렬로 처리할 수 있습니다.

from pyspark import SparkContext

sc = SparkContext("local", "Spark Example") # Standalone, YARN, Mesos 모드 사용 가능

# RDD 생성
data = sc.parallelize([1, 2, 3, 4, 5])

# 각 원소를 제곱하여 결과를 수집
result = data.map(lambda x: x * x).collect()
print(result)  # [1, 4, 9, 16, 25]

 

Spark SQL로 데이터 분석하기: Spark SQL을 사용하면 데이터프레임(DataFrame)을 활용해 Pandas와 유사한 방식으로 데이터를 처리할 수 있으며, SQL 쿼리를 사용할 수 있습니다.

from pyspark.sql import SparkSession

# Spark 세션 생성
spark = SparkSession.builder.appName("SQL Example").getOrCreate()

# 데이터프레임 생성
data = [(1, "Alice"), (2, "Bob")]
df = spark.createDataFrame(data, ["id", "name"])
df.createOrReplaceTempView("people")

# SQL 쿼리로 데이터 조회
sqlDF = spark.sql("SELECT * FROM people WHERE id > 1")
sqlDF.show()

 

Spark Streaming을 활용한 실시간 데이터 처리 예제: Spark Streaming은 실시간 데이터를 수집하고 처리할 수 있도록 해줍니다.

from pyspark.sql import SparkSession
from pyspark.sql.functions import explode
from pyspark.sql.functions import split

# 스트리밍 데이터 소스 생성
spark = SparkSession.builder.appName("Streaming Example").getOrCreate()
lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()

# 텍스트 데이터에서 단어 추출
words = lines.select(explode(split(lines.value, " ")).alias("word"))
wordCounts = words.groupBy("word").count()

# 콘솔에 실시간으로 출력
query = wordCounts.writeStream.outputMode("complete").format("console").start()
query.awaitTermination()

4-3. Spark의 사용 사례

  • 데이터 분석: Spark SQL을 통해 데이터를 분석하고 시각화하여 인사이트를 얻습니다.
  • 머신러닝 모델 학습: MLlib 라이브러리를 사용해 머신러닝 모델을 학습하고 예측에 활용합니다.
  • 실시간 데이터 분석: Spark Streaming을 통해 스트리밍 데이터를 실시간으로 분석하고 처리합니다.
  • 네트워크 및 소셜 그래프 분석: GraphX를 통해 네트워크 데이터 또는 소셜 네트워크에서 패턴을 분석할 수 있습니다.

5. 결론

Apache Spark는 대규모 데이터를 효율적으로 처리하고 분석할 수 있는 강력한 도구입니다. 특히, 빅데이터를 실시간으로 처리하는 Spark의 성능은 다양한 데이터 처리 요구를 충족시키며, 다양한 데이터 분석 모듈을 통해 유연하게 확장 가능합니다. Spark의 이러한 특징들은 기업의 데이터 인프라를 구축하거나 빅데이터 분석이 필요한 프로젝트에서 필수적인 기술로 자리 잡게 합니다.

 

Reference

https://spark.apache.org/docs/latest/

 

Overview - Spark 3.5.3 Documentation

Downloading Get Spark from the downloads page of the project website. This documentation is for Spark version 3.5.3. Spark uses Hadoop’s client libraries for HDFS and YARN. Downloads are pre-packaged for a handful of popular Hadoop versions. Users can al

spark.apache.org

728x90