본문 바로가기
경제 · 경영

빅데이터 분석대로 미래는 이루어진다: 국내 유일 트럼프 당선을 정확히 예측한 우종필 교수의 구글 빅데이터 기법 공개!/매일경제신문사(매경출판)

by It works 2017. 4. 16.



 


 

2016년 여름 “트럼프 당선에 대비하라”고 홀로 주장했던 한 학자의
놀라운 빅데이터 분석 기법 - 드디어 책으로 출간!

“여론조사만 보면 힐러리 클린턴이 이긴다고 다들 생각하지요. 하지만 구글 빅데이터는 완전히 다른 얘기를 하고 있습니다. 한국도 혹시 모를 시나리오에 미리 대비해야 합니다.”

2016년 7월. 그 누구도 도널드 트럼프의 대선 승리를 예상치 못했던 그 시기, [매일경제신문]에 “빅데이터는 트럼프 승리 예상… 한국도 대비해야”란 제목의 기사가 실렸다. 우종필 세종대 교수와의 인터뷰 기사다. 그리고 그는 미국 대선 일주일전 개인 홈페이지에 당선자와 선거인단 수를 다시 한 번 예측한다.

트럼프 당선이란 결과가 나와 버린 지금이야 “사실 그럴 줄 알았다”며 이런 저런 분석을 내놓는 ‘자칭 전문가’들이 수두룩하다. 하지만 그건 트럼프 당선 확정일인 2016년 11월 9일(한국 시간) 이후의 일이다. 당장 11월 9일 아침만 해도 트럼프의 당선을 이야기하는 사람은 아무도 없었다. 백이면 백, 힐러리 당선을 예상하고 있던 상황에서 주류 학계 학자가 일찌감치 “트럼프 당선에 대비하라”고 언론에 밝힌 까닭은 뭘까. 혹시라도 틀리게 될 경우 본인 이름에 치명타가 될 수도 있는데 말이다.

다른 이유는 없었다. 바로 ‘숫자(데이터)가 그렇게 말하고 있었기 때문’이었다.

 

 

01 빅데이터를 이용한 선거예측
여론조사의 허점
구글 트렌드를 이용한 선거예측
브렉시트
미국 대선 제도
2016 미국 대선
2016 미국 대선 결과 및 예측
한국의 선거들

02 구글 트렌드를 이용한 기업의 매출액 및 주가 예측
기업의 매출 예측 가능성
월마트와 아마존
미국 10대 유통 기업들
장기적 관점에서 분석한 검색량과 매출액 그리고 주가
한국 기업들
구글 트렌드 분석의 한계점

03 구글 트렌드와 마케팅
올해의 단어들
전자담배Vape
영화

04 빅데이터를 알아야 살아남는다
빅데이터란?
빅데이터의 장점
빅데이터 적용사례
아마존과 빅데이터
데이터 사이언티스트
빅데이터의 문제와 한계점

 




 

  

저 : 우종필

세종대학교 경영학과 교수로 미시간주립대학교(Michigan State University)에서 박사학위를 받았다. 현재 데이타솔루션(구 IBM SPSS) 자문교수, 빅데이터산학연구센터 자문교수 및 세종대학교 빅데이터 MBA(BIG DATA MBA) 주임교수직을 맡고 있다. 한국유통학회, 상품학회 이사와 한국소비자원 정책자문위원이며, 〈매일경제〉 명예기자로도 활동하고 있다. 현재까지 삼성전자, 두산그룹, 암웨이, BBQ 등의 기업에서 데이터를 바탕으로 한 브랜드 차별화 및 마케팅 전략 프로젝트를 수행했다.
지은 책으로 『구조방정식모델 개념과 이해』 『구조방정식모델 오해와 편견』 및 『한국유통산업 흐름』(공저) 이 있다.

 

 

참으로 신기하게도 긍정적인 이슈든 부정적인 이슈든 관계없이 검색량이 많은 후보가 대선에 승리했으며, 선거일이 다가올수록 그 격차가 증가하는 패턴을 발견할 수 있다. 브렉시트까지 포함하면 구글 트렌드 결과에서 모두 검색량이 많은 쪽이 승리한다는 규칙을 발견할 수 있는데, 이 규칙은 2016년 대선 때도 어김없이 맞았다. (중략)
CNN, 〈뉴욕타임스〉, ABC 뉴스 등 수많은 국외 및 국내 언론에서 힐러리 후보를 당선자로 예측했을 때도, 저자가 트럼프 후보의 당선에 대비해야 한다며 7월에 기고를 하고, 선거 일주일 전에는 학교 개인 홈페이지에 당선자 및 선거인단까지 다시 예측한 이유가 바로 빅데이터의 수치와 실제 대의원 수에 대한 알고리즘에 확신이 있었기 때문이다.
---「01. 빅데이터를 이용한 선거예측」중에서

[2016 미국 대선] 검색량 자체로만 본다면 두 후보 모두 고정층을 가지고 있으며 그것이 호감이든 비호감이든 피크를 보이는데, 1월부터 7월까지 검색량으로만 본다면 힐러리 후보는 트럼프 후보를 단 한 번도 앞선 적이 없었다. 이것은 여론조사와 정반대되는 흥미로운 현상이라고 할 수 있는데, 이 결과로만 본다면 오히려 힐러리가 ‘Under Dog’이었을 확률이 높다고 저자는 믿어 의심치 않는다.

---「01. 빅데이터를 이용한 선거예측」중에서

[2016 4.13 총선] 더불어민주당의 경우 한 번의 강한 피크를 보인 후 잠잠하다가 4월부터 검색량이 증가하고 있는 반면, 새누리당은 다른 당에 비해 검색량이 다소 앞서다가, 3월 말부터 갑자기 줄어드는 모습을 볼 수 있다. 특히 선거 전날의 경우, 3당 중 검색량에서 최하위인 모습마저 볼 수 있다. (중략) 반대로 국민의당의 경우를 보면 검색량이 다른 당에 비해서 미미하다가, 4월에 들어서면서 서서히 증가하더니 선거 전날 다른 당에 비해 갑자기 증가하고 있음을 볼 수 있다.
---「01. 빅데이터를 이용한 선거예측」중에서

[아마존 주가 분석] 아마존의 1분기별 검색량 패턴을 보면, 2012년 1분기부터 2015년 1분기까지 검색량이 꾸준히 증가하고 매출액 역시 꾸준히 증가하고 있음을 알 수 있다. 결국 2015년 1분기 주가는 우상향하는 구조로 예측되므로, 매출액을 바탕으로 한 주식 투자라면 매수 시점이라고 볼 수 있다.
[삼성전자 주가 분석] 삼성전자의 1분기별 검색량 패턴을 보면, 2013년 1분기부터 2015년 1분기까지 감소하다가 2016년 1분기부터 증가함을 알 수 있는데, 삼성전자에서 발표한 실제 매출액 역시 2016년 1분기부터 역시 증가하고 있음을 알 수 있다. 그리고 주가도 역시 1분기부터 꾸준히 우상향하고 있음을 알 수 있다. 이런 경우라면, 2016년 1분기가 삼성전자 주식의 매수 시점임을 알 수 있다.
---「02. 구글 트렌드를 이용한 기업의 매출액 및 주가 예측 」중에서

[영화 흥행 예측] 매출액과 구글 검색량을 보면 1주의 경우 0.756, 2주의 경우 0.881, 전체의 경우 0.913으로 시간이 갈수록 높은 상관을 보이고 있다. 특히 2주의 경우 검색량과 매출액의 관계가 높은 상관을 보였고, 연간 구글 검색량과 큰 차이가 나지 않는 것으로 보인다. 이런 결과라면 개봉일이 포함된 주와 다음 주의 검색량 만으로 그 영화의 흥행을 어느 정도 예측할 수 있다는 결론이 나온다.
---「03. 구글 트렌드와 마케팅」중에서

물, 우유, 설탕, 계란, 아기 기저귀, 야채처럼 소비성 생활물품들은 일정 기간 동안 소비하고 반드시 재구매를 하는 물품들이기 때문에 고객들의 축적된 데이터만 제대로 활용한다면 그들의 물품 구매 시기를 파악할 수 있게 된다. 아마존은 이런 점에 착안하여 기존 구매 데이터뿐만 아니라 아마존 대시나 에코를 통해 얻은 데이터를 분석해 고객들의 더욱 정확한 구매 시기를 파악할 수 있게 된 것이다.
 
  ---「04. 빅데이터를 알아야 살아남는다」중에서

 

2016 미국 대선, 2012 한국 대선, 4.13 한국 총선, 브렉시트…
모든 것이 구글 검색량 추이와 들어맞는다!


저자는 구글 트렌드를 이용한 논문들을 읽고 연구하면서, 빅데이터를 기반으로 한 구글 트렌드 데이터로도 선거를 예측할 수 있겠다는 확신이 들었다. 사실 여론조사는 황당할 정도로 표본이 적다. 유권자가 2억 명이 넘는 미국에서, 내로라하는 여론조사 회사들은 고작 1,000명 남짓의 유권자들을 대상으로 결과를 예측한다. 전체 유권자의 0.00001%도 안 되는 수치다. 최근에는 미 대선을 포함해 브렉시트, 4.13 총선 등 굵직한 이벤트 때마다 끔찍할 정도로 결과 예측에 실패하기도 했다. 시대가 변한 만큼, 이제는 조사 기법도 바뀌어야 하는 것이다.

가장 큰 대안으로 떠오른 것이 바로 ‘빅데이터’다. 우종필 교수는 구글 검색량을 이용한 빅데이터 분석으로 선거 예측은 물론 기업 매출액 및 주가 예측, 상품 마케팅 등 다양한 분야에서 놀라운 연구 성과를 보였다. 『빅데이터 분석대로 미래는 이루어진다』는 이러한 저자의 연구 성과를 집약해 일반 독자들도 이해하기 쉽도록 구성한 책이다.

1장에서는 구글 트렌드를 이용하여 2016년 미국 대선 및 한국 총선에 대한 결과를 재분석했다. 그리고 저자의 전공 분야로 10여 년 넘게 강의한 구조방정식모델 기법을 사용하여 2012년 한국 대선에 대한 재해석도 시도해 보았다. 2장에서는 저자가 경영대 교수이니만큼 빅데이터를 이용한 기업의 매출액 예측을 통해 주가를 살펴보았으며, 3장에서는 구글 검색어와 관련된 흥미로운 내용들을 마케팅적 시각에서 접근해 보았다. 마지막으로 4장에서는 빅데이터에 대한 기본적인 내용을 담았다.

 

댓글