에듀윌 · PART B · 스파크
인메모리 100배
UC 버클리 2014 · MapReduce 대비 최대 100배

Spark — 인메모리 분산 처리

Spark
APACHE SPARK
한 줄 정의
분산 인메모리 처리 엔진. 핵심은 RDD(Resilient Distributed Dataset) — 노드 장애 시 lineage로 자동 재계산.
구분MapReduceSparkTajo
처리디스크 기반인메모리SQL on Hadoop
속도느림최대 100배SQL 쿼리 빠름
개발야후(미국)UC 버클리(미국)대한민국
합격 한 줄
'디스크 = MapReduce / 인메모리 = Spark / 한국 DW = 타조.' Spark 5종(Core·SQL·Streaming·MLlib·GraphX)은 보기로 가끔 — 한 번만 훑어두기.