상세정보
데이터 분석을 위한 SQL 레시피
- 저자
- 가사키 나가토,다미야 나오토 공저/윤인성 역
- 출판사
- 한빛미디어
- 출판일
- 2018-04-13
- 등록일
- 2018-07-11
- 파일포맷
- PDF
- 파일크기
- 190MB
- 공급사
- YES24
- 지원기기
-
PC
PHONE
TABLET
웹뷰어
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
현장에서 바로 써먹는 SQL 데이터 분석 실무 지침서 이 책은 집필진이 실제로 업무에서 작성했던 리포트나 SQL 코드를 범용화하여 정리한 지침서입니다. 데이터 집계와 가공, 매출 파악, 웹사이트 내 유저 행동 파악, 이상 수치 검출, 검출기능 평가, 추천 기능 구축 등 상황별 실전 대응 방법과 노하우가 담겨 있습니다. 코드 동작은 범용 SQL문으로 확인했습니다.이 책을 익히면 데이터 분석 담당자는 각종 액세스 분석 툴이 제공하는 지표나 필터 없이 결과물을 스스로 만들어낼 수 있습니다. 엔지니어 역시 데이터 분석 업무를 충분히 이해하고 분석 담당자나 경영진에게 적절한 정보를 제공하거나 보고서를 만들어 제출할 수 있습니다.
저자소개
게이오대학 대학원과 학생 벤처에서 멀티미디어 데이터베이스를 대상으로 한 검색 및 추천 알고리즘의 연구와 서비스 개발을 했습니다. 현재는 (주)DMM.com 연구소에서 빅데이터를 활용하기 위한 기반 시스템 구축, 스파크와 SQL on Hadoop을 이용한 추천 기능 및 빅데이터 활용에 대한 연구와 개발을 하고 있습니다
목차
1장 빅데이터 시대에 요구되는 분석력이란?1강 데이터를 둘러싼 환경의 변화1 접근 분석 도구의 등장2 빅데이터의 등장2강 여러 가지 과제1 분석 담당자의 과제2 엔지니어의 과제3 분석 담당자와 엔지니어의 이해관계2장 이 책에서 다루는 도구와 데이터3강 시스템1 PostgreSQL2 Apache Hive3 Amazon Redshift4 Google BigQuery5 SparkSQL4강 데이터1 데이터의 종류2 업무 데이터3 로그 데이터4 두 데이터를 사용해서 생성되는 가치3장 데이터 가공을 위한 SQL5강 하나의 값 조작하기1 코드 값을 레이블로 변경하기2 URL에서 요소 추출하기3 문자열을 배열로 분해하기4 날짜와 타임스탬프 다루기5 결손 값을 디폴트 값으로 대치하기6강 여러 개의 값에 대한 조작1 문자열 연결하기2 여러 개의 값 비교하기3 2개의 값 비율 계산하기4 두 값의 거리 계산하기5 날짜/시간 계산하기6 IP 주소 다루기7강 하나의 테이블에 대한 조작1 그룹의 특징 잡기2 그룹 내부의 순서3 세로 기반 데이터를 가로 기반으로 변환하기4 가로 기반 데이터를 세로 기반 데이터로 변환하기8강 여러 개의 테이블 조작하기1 여러 개의 테이블을 세로로 결합하기2 여러 개의 테이블을 가로로 정렬하기3 조건 플래그를 0과 1로 표현하기4 계산한 테이블에 이름 붙여 재사용하기5 유사 테이블 만들기4장 매출을 파악하기 위한 데이터 추출9강 시계열 기반으로 데이터 집계하기1 날짜별 매출 집계하기2 이동 평균을 사용한 날짜별 추이 보기3 당월 매출 누계 구하기4 월별 매출의 작대비 구하기5 Z 차트로 업적의 추이 확인하기6 매출을 파악할 때 중요 포인트10강 다면적인 축을 사용해 데이터 집약하기1 카테고리별 매출과 소계 계산하기2 ABC 분석으로 잘 팔리는 상품 판별하기3 팬 차트로 상품의 매출 증가율 확인하기4 히스토그램으로 구매 가격대 집계하기5장 사용자를 파악하기 위한 데이터 추출11강 사용자 전체의 특징과 경향 찾기1 사용자의 액션 수 집계하기2 연령별 구분 집계하기3 연령별 구분의 특징 추출하기4 사용자의 방문 빈도 집계하기5 벤 다이어그램으로 사용자 액션 집계하기6 Decile 분석을 사용해 사용자를 10단계 그룹으로 나누기7 RFM 분석으로 사용자를 3가지 관점의 그룹으로 나누기12강 시계열에 따른 사용자 전체의 상태 변화 찾기1 등록 수의 추이와 경향 보기2 지속률과 정착률 산출하기3 지속과 정착에 영향을 주는 액션 집계하기4 액션 수에 따른 정착률 집계하기5 사용 일수에 따른 정착률 집계하기6 사용자의 잔존율 집계하기7 방문 빈도를 기반으로 사용자 속성을 정의하고 집계하기8 방문 종류를 기반으로 성장지수 집계하기9 지표 개선 방법 익히기13강 시계열에 따른 사용자의 개별적인 행동 분석하기1 사용자의 액션 간격 집계하기2 카트 추가 후에 구매했는지 파악하기3 등록으로부터의 매출을 날짜별로 집계하기6장 웹사이트에서의 행동을 파악하는 데이터 추출하기14강 사이트 전체의 특징/경향 찾기1 날짜별 방문자 수 / 방문 횟수 / 페이지 뷰 집계하기2 페이지별 쿠키 / 방문 횟수 / 페이지 뷰 집계하기3 유입원별로 방문 횟수 또는 CVR 집계하기4 접근 요일, 시간대 파악하기15강 사이트 내의 사용자 행동 파악하기1 입구 페이지와 출구 페이지 파악하기2 이탈률과 직귀율 계산하기3 성과로 이어지는 페이지 파악하기4 페이지 평가 산출하기5 검색 조건들의 사용자 행동 가시화하기6 폴아웃 리포트를 사용해 사용자 회유를 가시화하기7 사이트 내부에서 사용자 흐름 파악하기8 페이지 완독률 집계하기9 사용자 행동 전체를 시각화하기16강 입력 양식 최적화하기1 오류율 집계하기2 입력~확인~완료까지의 이동률 집계하기3 입력 양식 직귀율 집계하기4 오류가 발생하는 항목과 내용 집계하기7장 데이터 활용의 정밀도를 높이는 분석 기술17강 데이터를 조합해서 새로운 데이터 만들기1 IP 주소를 기반으로 국가와 지역 보완하기2 주말과 공휴일 판단하기3 하루 집계 범위 변경하기18강 이상값 검출하기1 데이터 분산 계산하기2 크롤러 제외하기3 데이터 타당성 확인하기4 특정 IP 주소에서의 접근 제외하기19강 데이터 중복 검출하기1 마스터 데이터의 중복 검출하기2 로그 중복 검출하기20강 여러 개의 데이터셋 비교하기1 데이터의 차이 추출하기2 두 순위의 유사도 계산하기8장 데이터를 무기로 삼기 위한 분석 기술21강 검색 기능 평가하기1 NoMatch 비율과 키워드 집계하기2 재검색 비율과 키워드 집계하기3 재검색 키워드를 분류해서 집계하기4 검색 이탈 비율과 키워드 집계하기5 검색 키워드 관련 지표의 집계 효율화하기6 검색 결과의 포괄성을 지표화하기7 검색 결과의 타당성을 지표화하기8 검색 결과 순위와 관련된 지표 계산하기22강 데이터 마이닝1 어소시에이션 분석23강 추천1 추천 시스템의 넓은 의미2 특정 아이템에 흥미가 있는 사람이 함께 찾아보는 아이템 검색3 당신을 위한 추천 상품4 추천 시스템을 개선할 때의 포인트5 출력할 때 포인트6 추천과 관련한 지표24강 점수 계산하기1. 여러 값을 균형있게 조합해서 점수 계산하기2 값의 범위가 다른 지표를 정규화해서 비교 가능한 상태로 만들기3 각 데이터의 편차값 계산하기4 거대한 숫자 지표를 직감적으로 이해하기 쉽게 가공하기5 독자적인 점수 계산 방법을 정의해서 순위 작성하기9장 지식을 행동으로 옮기기25강 데이터 활용의 현장1 데이터 활용 방법 생각하기2 데이터와 관련한 등장 인물 이해하기3 로그 형식 생각해보기4 데이터를 활용하기 쉽게 상태 조정하기5 데이터 분석 과정6 분석을 위한 한 걸음 내딛기7 상대방에 맞는 리포트 만들기8 빅데이터 시대의 데이터 분석자