R 병렬 프로그래밍
R을 제대로 활용하는 방법! R 병렬 프로그래밍
SNS 데이터, 연구자료 등 빅데이터를 분석하고 싶은가? 그럼 분석 도구 중 R을 사용하기를 권한다. R을 써야 하는 이유는 자명하다. 고성능이며 다양한 플랫폼에서 사용할 수 있는데다 오픈 소스로 개발된 통계 소프트웨어다. R은 데이터를 잘 살펴보기 위한 대화형 인터페이스를 갖추고 있으며, 원하는 분석과정을 반복하기 위하여 스크립트 언어처럼 사용할 수도 있다. 게다가 대부분의 통계적인 분석 알고리즘이 내장되어있어 직접 코드를 짜지 않아도 된다. 무엇보다도 R은 공짜다. 만약 기본적으로 제공된 함수들로 충분하지 않다면, 다른 사용자가 만든 수많은 애드온 패키지와 GUI 환경 등을 추가로 다운로드받아 사용할 수 있다. 이런 특징이 R을 빅데이터 시대의 화두로 만들어주었다.
하지만 R을 이용한 병렬 프로그래밍 방법을 모른다면, 빅데이터를 분석하기 어려울 것이다. 빅데이터를 분석을 위해서 수십 분 혹은 수 시간을 기다리다 지쳐 쓰러질 수도 있을 것이다. 빅데이터 분석과 같은 분석시간이 많이 걸리는 작업을 하려면, R 병렬 프로그래밍은 선택이 아니라 필수다. 이 책은 R이 무엇인지, 어떻게 사용하는지 알고 있는 독자를 대상으로 R 병렬 프로그래밍 방법을 소개한다. 이 책은 빅데이터 분석과 R 사용 스킬을 업데이트하기 위한 가이드가 되어줄 것이다. 이 책에서 다루는 내용은 다음과 같다.
1장에서는 R 병렬 프로그래밍을 학습하기 위한 워밍업을 한다.
2장에서는 snow 패키지를 알아본다.
3장에서는 multicore 패키지를 알아본다.
4장에서는 parallel 패키지를 알아본다.
5장~8장에서는 맵리듀스와 하둡에 관해 간략하게 알아본 후, R에서 이를 어떻게 활용하는지를 나머지 장들에서 알아본다.
9장에서는 최근에 개발된 몇 가지 방법들에 대하여 살펴본다.
대상 독자
대용량 데이터를 다루는 중급 개발자
R을 사용하는 개발자
[지은이] Q. 에덴 맥컬럼
Q. 에덴 맥컬럼은 컨설턴트이자 작가이며, 기술 마니아로 오라일리 네트워크와 Java.net의 여러 작업에 참여하였으며, C/C++ Users Journal, Dobb's Journal, Linux Magazine 등에 글을 기고하기도 했습니다. 그는 회사들이 데이터와 기술을 통해 좀 더 나은 선택을 할 수 있도록 돕고 있습니다.
[지은이] 스테판 웨스턴
스테판 웨스턴은 25년 이상 고성능 병렬 컴퓨팅 분야에서 일해왔습니다. 90년대에 Scientific Computing Associates에 입사하여 데이비드 겔렌더가 개발한 린다 프로그래밍 시스템과 관련한 일을 맡아왔습니다. Revolution Computing, Inc.의 창립자이기도 하며, 이 회사에서는 nws, foreach, doSNOW, doMC 등 R을 이용한 병렬 컴퓨팅 패키지를 개발하고 있습니다. 현재는 예일 대학교에서 고성능 컴퓨팅 전문가로 활동하고 있습니다.
[옮긴이] 임재현
바이오 빅데이터를 공부하고 있는 대학원생이며, 얼마 전에 결혼에 성공하여 신혼을 즐기고 있다. 어린 시절의 꿈이었던 불로장생의 영약을 만들기 위해 열심히 공부하고 있다. 대학원에 처음 들어왔을 때부터 R을 사용하였으며, 종종 부족한 실력이지만 R 강의를 하기도 하였다. 지금도 데이터의 가공 및 통계적 분석, 평가, 시각화에 이르기까지 작업 대부분에 R을 활용하고 있으며, 요즈음에는 리눅스 서버 환경에서 R을 효율적으로 사용하는 방법을 고민하고 있다.