책소개
프로그램에 대한 배경 지식이 ‘1’도 없는 사람일지라도
엑셀, 구글 스프레드시트로 쉽게 할 수 있는 데이터 수집 방법!
웹에는 방대한 데이터가 모인다. 대형 정보관리체계로 유명한 Dell EMC 사의 통계에 따르면 2000년에 6.2엑사바이트였던 데이터가 해마다 증가해 2020년에는 35제타바이트에 달할 것으로 예상하고 있다. 제타바이트는 엑사바이트의 1,000배이므로 약 20년간 5,000배 이상의 데이터가 증가할 것이며, 이렇게 생성된 데이터의 약 94%는 디지털 형태로 구성되어있다. 이는 새로 생성된 데이터 대부분이 디지털 형태로 탄생하고 있다는 의미이다. 디지털화된 모든 데이터의 정보가 웹에 존재하는 것은 아니지만, 대다수의 디지털 데이터가 웹을 통해 공유되는 만큼 웹 데이터의 활용이 정보 수집 및 의사 결정에 도움이 된다는 것은 부정할 수 없는 현실이다.
이 책은 그러한 ‘디지털 데이터’를 ‘되도록 쉽게, 그리고 효율적으로 웹에서 수집하는 방법’을 설명하고 있다. 데이터 수집의 효율을 극대화하기 위해 프로그램을 개발하기도 하지만 이 책은 웬만하면 많은 사람이 사용할 수 있도록 엑셀과 구글 스프레드시트 같이 구하기 쉽고, 특별한 프로그램 환경 구축이 필요치 않은 애플리케이션을 이용하고 있다. 프로그래밍 경험이 없는 사람이라도 쉽게 따라할 수 있도록 모든 절차를 자세히 설명하고 있으므로 누구든 안심하고 데이터 수집의 자동화 세계에 입문할 수 있다.
목차
Chapter 1 웹 데이터를 수집하기 위해 알아야 하는 것들
1-1 인터넷에는 데이터가 많죠?
_ 웹 데이터의 종류
[여기서 잠깐] 이 책에서 대상으로 하는 데이터
1-2 효율적인 데이터 수집을 위해 해야 할 일
_ 데이터 수집 3단계
1-3 어떻게 자동화 할 수 있을까?
_ 스크래핑과 크롤러
_ 반자동화 프로그램
_ 완전 자동화 프로그램
[여기서 잠깐] 이 책의 진행 방식
1-4 웹에서 데이터를 수집할 때의 주의사항
_ 수집 데이터의 처리와 저작권
_ 웹 사이트의 리소스 압박과 업무 방해
_ 크롤러와 API
Chapter 2 엑셀을 이용한 웹 데이터 수집의 기술
2-1 엑셀 VBA로 웹 데이터 수집하기
_ 엑셀로 데이터 수집하기
_ 엑셀에서 VBA를 사용하기 위한 메뉴 설정하기
_ 데이터 수집에 필요한 프로그램 작성하기
2-2 VBA에서 인터넷 익스플로러를 조작하는 방법
_ 맨 윗줄, 어떤 것을 할지 선언하는 부분
_ VBA 함수 선언
_ 인터넷 익스플로러 작업
2-3 웹 페이지에서 원하는 값을 추출하는 방법
_ HTML이란?
_ HTML에서 class로 데이터를 추출하는 프로그램
[여기서 잠깐] 검색어 변경하는 방법
2-4 XPath를 이용해 데이터 추출하기
_ 크롬에서 XPath를 추출하는 방법
_ 파이어폭스에서 XPath를 추출하는 방법
2-5 엑셀 함수를 이용한 데이터 수집
_ WEBSERVICE 함수를 이용한 데이터 수집
_ FILTERXML 함수를 이용한 데이터 수집
Chapter 3 구글 스프레드시트를 이용한 웹 데이터 수집의 기술
3-1 구글 스프레드시트와 구글 앱스 스크립트 준비하기
_ 구글 스프레드시트
_ 구글 앱스 스크립트
_ GoogleFinance 함수를 이용하여 주식 데이터 바로 가져오기
_ 구글 스프레드시트로 스크래핑하기
3-2 ImportXML 함수를 이용하여 웹 데이터 수집하기
_ ImportXML 함수의 개요
_ 주가 데이터 수집 방법
_ 데이터 가지고 오기
[여기서 잠깐] ImportXML에서 다른 데이터 검색하기
3-3 구글 앱스 스크립트를 이용하여 데이터 수집하기
_ 구글 앱스 스크립트 사용 방법
_ 구글 앱스 스크립트를 이용한 스크래핑
[여기서 잠깐] 다른 페이지에서 데이터 가져오기
3-4 지정한 시간에 정기적으로 데이터 수집하기
_ 구글 앱스 스크립트 트리거
_ 트리거 설정 방법
Chapter 4 스크래핑 전용 서비스를 이용하여 웹에서 데이터 수집하기
4-1 import.io를 사용하여 웹 데이터 수집하기
_ import.io 서비스의 개요
4-2 import.io에서 스크래핑 실행하기
_ import.io 회원 가입하기
_ 데이터 자동 추출하기
_ 저장한 데이터 불러오기
_ API 이용해 데이터 불러오기
4-3 수집한 데이터를 구글 스프레드시트로 불러오기
_ 구글 스프레드시트와 연동
_ 구글 앱스 스크립트에서 API 호출하기
Chapter 5 앱을 이용하여 페이스북에서 데이터 수집하기
5-1 앱을 이용하여 데이터를 수집하고 알림 받기
_ 알림을 받기 위한 애플리케이션
_ IFTTT 소개
_ 슬랙(Slack) 소개
5-2 IFTTT를 이용해 페이스북에 글 올리면 이메일로 알림 받기
_ IFTTT 회원 가입하기
_ 모바일 앱 설치하기
_ 페이스북에 포스트를 올리면 알림이 오는 기능 만들기