책소개
최고의 커미터와 컨트리뷰터가 안내하는 스파크 실전 입문서
이 책은 스파크를 처음 접하거나 활용을 고민하는 엔지니어를 위한 입문서다. 스파크의 특성과 동작 원리부터 차근차근 이해하고, 데이터 처리를 위한 간단한 병렬분산처리 애플리케이션을 직접 작성해보는 것이 목표다. 일본 최초의 아파치 스파크 커미터와 실력 있는 컨트리뷰터들이 검증된 실전 경험을 바탕으로 여러분을 스파크의 세계로 차근차근 안내해줄 것이다.
1부 도입편에서는 스파크의 탄생 배경과 특징, 목적을 설명하고 PC에 스파크를 설치하는 방법을 소개한다. 이어서 애플리케이션 개발을 위한 환경 구축 방법과 실행, 종료 방법을 보여준다. 2부 실전편에서는 개발에 유용한 도구인 스파크 셸과 기본적인 API를 이용해 간단한 스파크 애플리케이션을 작성해 실행해보고 여러 용도로 활용할 수 있는 주요 라이브러리를 차례로 소개한다.
목차
Part 1 도입편
Chapter 1 아파치 스파크란 무엇인가?
1.1 아파치 스파크 정의
1.2 스파크의 역사와 개발 커뮤니티
1.3 스파크 활용 사례
1.4 스파크의 특징
Chapter 2 스파크의 처리 모델
2.1 스파크의 기본적인 자료구조 RDD
2.2 스파크 분산처리 환경
Chapter 3 스파크 설치하기
3.1 이 책의 스파크 작동 환경
3.2 스파크 설치(단일 머신/클러스터 공통)
3.3 스파크 설치(클러스터용 추가 작업)
Chapter 4 스파크 애플리케이션 개발과 실행
4.1 스파크 제공 라이브러리
4.2 스파크 애플리케이션 개발 환경 구축
4.3 sbt로 스파크 애플리케이션 작성하기
4.4 스파크 애플리케이션 실행하기
4.5 대화형으로 실행하기
4.6 애플리케이션의 강제 종료
Part 2 실전편
Chapter 5 기본 API를 이용한 프로그래밍
5.1 기본 API 개요
5.2 스파크 애플리케이션과의 만남
5.3 데이터 순서를 바꾸어 처리하기
5.4 복수의 데이터를 결합해 처리하기
5.5 복잡한 처리를 효율적으로 처리하기
Chapter 6 구조화된 데이터셋 처리하기: 스파크 SQL
6.1 스파크 SQL이란?
6.2 스파크 SQL을 이용한 데이터처리 기술 방법
6.3 스파크 SQL 준비작업
6.4 DataFrame을 이용하여 데이터처리 기술하기
6.5 하이브와 스파크 SQL의 테이블에 대한 처리 기술하기
6.6 스파크 SQL 튜닝하기
Chapter 7 스트림 데이터 처리하기: 스파크 스트리밍
7.1 스트림처리란 무엇인가?
7.2 각종 이용 사례
7.3 스파크 스트리밍이란 무엇인가?
7.4 스파크 스트리밍이 제공하는 기능
7.5 동작 확인하기
7.6 클러스터 환경에 애플리케이션 배포하기
7.7 센서 데이터 스트림처리하기
7.8 아파치 카프카와 연동하기
7.9 샘플 프로젝트에서 다루지 못한 것
Chapter 8 머신러닝: MLlib
8.1 MLlib 개요
8.2 MLlib의 기초와 제공 알고리즘
8.3 MLlib 입문
8.4 Word2Vec으로 한국어 벡터화하기
8.5 응용편: 회귀에 의한 매출 분석
8.6 spark.ml 패키지의 ML 파이프라인
Part 3 부록
부록 A 그래프X를 이용한 그래프 처리
A.1 그래프X란 무엇인가?
A.2 그래프의 예
A.3 그래프X 기능의 개요
A.4 그래프X를 이용한 그래프 처리 예
부록 B 스파크 R 활용하기
B.1 스파크 R이란 무엇인가?
B.2 스파크 R의 작동 환경 구축
B.3 스파크 R의 작동 확인
B.4 스파크 R 셸을 이용한 데이터 처리
부록 C 머신러닝과 스트림처리 연동
C.1 센서 데이터를 이용한 행동 분석
C.2 회귀 모델 생성
C.3 평가용 스트림 데이터로 사용자 행동 판정
C.4 스파크 스트리밍의 결과 출력
C.5 JDBC 서버 기능으로 스트림처리 결과 참조
C.6 샘플 애플리케이션의 확장성
부록 D 웹 UI 활용
D.1 UI의 개요
D.2 웹 UI 접속 방법
D.3 처리 타임라인 시각화와 DAG 시각화
D.4 과거의 애플리케이션 실행 결과를 확인하는 방법
1.1. 7. 관련 서적 (제목 + ISBN)
● 실시간 분석의 모든 것 / 9788968482298
● 9가지 사례로 익히는 고급 스파크 분석 / 9788968482892