[ 읽게 된 동기 ]


마이크로소프트웨어 395호를 데이터 사이언스 특집으로 준비하며, 전반적인 이해를 위해서.
 

[ 한줄평 ]


빅 사이즈 기업들의 빅데이터 이야기.
 

[ 서평 ]


데이터 사이언스. 내게도 꽤 의미있는 단어다. 데이터 사이언스를 하지는 않지만, 4년간 다닌 회사를 퇴사할 때 작지 않은 계기가 된 단어이기 때문이다.
3년 전 어느날 “Data Scientist: The Sexiest Job of the 21st Century” 2012년 10월 HBR에 실린 ’21세기 가장 섹시한 직업, 데이터 사이언티스트’라는 이 아티클을 읽으며 당시 조직보다 더 배울 수 있는 곳으로 향해야겠다고 다짐했다. 당시 이 아티클은 내게 충격이었다. 이런 분야가 있다는 것을 2015년에야 처음 알았으며, 내가 하고 있던 일이 너무도 초라하게 보였다.
그 후로 창업도 했고, 프리랜서를 거쳐 지금의 포지션까지. 늘 다양한 생각은 했지만, 이를 실행하기 위한 몇몇 시발점이 된 글이다.
그래서 데이터 사이언스는 뭘까?
 

데이터 사이언티스트, 정말 섹시할까?

사실 데이터 사이언스에 대해서는 거품이 있다고 생각한다. 나 역시 가장 섹시한 직업이니, 최고 연봉이니 등의 마케팅 용어에 속았다. 하지만 데이터 업무를 하는 실무자들을 만나보면 이야기가 다르다.

“초급 분석가가 쓸모 있는 데이터 과학자가 되기까지 몇 년이 걸리느냐”는 케이디너겟츠닷컴의 설문에 응답자의 50% 이상이 5~8년 걸린다고 답했다. 아닌 게 아니라, 최소 3년은 실제 데이터 작업을 해봐야 기본적인 기초 통계 분석이 어느 정도 가능하다. 학교에서 기초 통계 시간에 평균(mean), 중앙값(median), 최빈값(mode)을 다 배우지만, 현장에서 데이터를 보고 문제 현황을 파악할 때 어떤 값을 기준값으로 사용해야 할지 판단을 못하는 경우도 허다하다. 또한 학교의 샘플 데이터와 현업의 데이터는 차이가 너무 크다.

언론으로 접하는 데이터 사이언스는 정말 화려하다. 마치 그동안 비즈니스로 쌓은 데이터를 몽땅 넣으면 앞으로의 방향성이 “딱!” 나오는 것처럼 말한다. 물론 이 과정에 깊이 관여하는 사람이 데이터 사이언티스트고 말이다.

실제 비즈니스 현장에서는 우주과학자나 물리학자, 수학자만 쓸 수 있는 복잡한 알고리즘을 사용해야 하는 분석 과제는 많지 않고 복잡한 알고리즘은 현업에 적용하기도 쉽지 않다. 데이터 과학자는 검증된 알고리즘을 사용하는 사용자이지 알고리즘 개발자는 아니라는 것을 기억하자.

아쉽지만 실제 데이터를 다루는 사람들은 하나 같이 “쓸 수 있는 데이터가 없다”고 말한다. 실제 데이터가 없기도 하고, 정제된 데이터가 없다는 말이 더 정확하다. 가령 주소 데이터를 다룬다고 해도 ‘서울시’, ‘서울’, ‘서울특별시’, ‘서울 특별시’ 등 같은 의미의 단어가 다양하게 표현돼 당장 쓸 수 없는 것이다. 예시처럼 간단하면 몇몇 매크로로 맞추면 되지만, 현실은 그리 쉽지 않다는게 실무자들의 의견이다.
 
성공사례 위주로 발표하는 것도 문제다.

P&G는 5단계에 이른 현재, 비즈니스 분석팀장은 회사 전략이나 비즈니스 영역에 그의 기술과 역량을 제공하고, 비즈니스 분석가는 데이터 분석을 활용해 한 부서의 목적보다는 전사적 안목으로 기회를 찾아 적용하고 문제를 해결하기 위한 가설을 세웠고, 데이터 과학자는 데이터를 가지고 복잡한 통계 모형을 만들고, 데이터 팀장은 회사의 의사 결정 프로세스에 필요한 분석 결과를 적용하기 위해 IT 아키텍처를 전사적 안목으로 재구상하여 빅데이터(비정형 포함)를 비즈니스에 활용할 수 있게 만들었다고 한다.

이 분야만의 문제겠냐만은, 2012년 기준 12만 6천명(위키백과) 직원이 있는 P&G의 사례로 희망찬 이야기만 나열한다. 분명 어느 관리자는 이 글을 보고 돌아가 ‘우리도 데이터 분석 하자!’고 말할 것이다. 데이터 중심 비즈니스를 하기까지는 경영진의 노력이 물론 중요하지만, 단순히 탑다운 노력만으로 되는 것이 아니다.

필자는 데이터 과학자나 개발자들, 또는 가능성이 엿보이는 예비 엔지니어들에게 영어 실력만 갖추었다면 외국 기업에서 일하라고 조언한다. 한국 기업에서는 지금의 인력 관리 구조가 바뀌지 않는 한 순수 데이터 과학자나 숙련된 IT기술 개발자로서의 미래는 불투명하다고 보기 때문이다.

마지막 부분에 나오는 필자의 의견이긴 하지만, 그렇다. 사실상 현재 우리나라 IT 상태로는 쉽지 않다. 블록체인이 뜬다며 단순히 ‘탈중앙화’를 외치는 많은 비즈니스 맨을 보면 현재 우리나라 IT 상태를 알 수 있다.
 
우리나라의 성급함만이 문제는 아니다.

미국 CRM 전문 컨설팅 업체인 뉴클리어스(Nucleus) 연구소의 발표에 따르면, CRM을 통해 얻는 혜택이 최대 100%라고 가정할 때 직접적 매출 증가 혜택은 30%이고 간접적 헤택이 70%라고 한다. 또한 인프라 도입이나 솔루션 개발 후 평균 2.5~3년이 지나야 실질적인 효과가 나타나기 시작한다고 한다.

애초에 데이터 중심 비즈니스를 만들려면, 시간이 걸린다고 한다. 데이터를 수집해야 하고, 적재하고, 인사이트를 도출하고, 실제 적용까지. 이 과정에서 사실상 데이터 관련 조직은 R&D로 편성될텐데, 2~3년 동안 기다려줄 수 있는 기업이 얼마나 될까? 과연 그 기간 동안 섹시하고 스마트하게 연구할 수 있는 담력은 누가 갖고 있을까?

클로즈 루프 프로세스란 데이터 수집에서부터 평가 모니터링까지 원 모양으로 순환하는 데이터 프로세스를 말한다. 다양한 채널에서 생성되는 데이터를 수집, 가공, 분석해 실행 가능한 조치를 현업에 적용하게 되는데, 적용한 후 최소 3개월에서 6개월까지는 아무 일도 일어나지 않을 수 있다. 더러는 그 기간이 1년까지 길어지기도 하는데, 이렇게 긴 기다림 끝에 넘겨받은 데이터를 다시 평가, 분석하고 그 결과를 다음 개발 작업에 또다시 반영한다. 이러한 작업을 반복해 조금이라도 더 발전된 실행 조치를 지속적으로 현업에 반영하는 순환 프로세스다.

과연 데이터 사이언스는 섹시할까?
 

데이터 분석, 대기업의 전유물인가.

본 책에서도 아쉬움은 있다. 저자 커리어의 한계인지, 업계의 한계인지 사실상 대기업의 이야기만 나온다.

액시엄은 미국 인구 대부분에 해당하는 약 3억 명의 개인정보 데이터를 보유하고 있다. 전 세계로 범위를 넓히면 자그마치 7억 명이 넘는 개인정보를 수집하고 관리한다. 한 사람당 약 1,500가지의 원천 데이터와 그것을 가공 정제한 1,000가지 정도의 정제된 고급 데이터를 보유하고 있으니 어마어마한 양이다.

P&G에 비할바 아니지만 액시엄의 직원 수도 만만치 않다. 2017년 기준 약 3260명(구글검색). 팀 구성원이 단 2명인 나로써는 데이터 분석을 도입하고 싶지만, 엄두가 나지 않는다. 당장 실행할 수 있는 일도 쌓여 있는데, 향후 2, 3년을 보고 투자할 여유는 없다.

데이터 과학자는 통계분석가가 될 수 있지만, 통계 분석가가 데이터 과학자가 되려면 준비 과정이 좀 더 필요하다. 마찬가지로 주로 BI(Business Intelligence) 툴을 사용해 과거 데이터나 정제된 보고서식 통계 데이터를 분석하는 비즈니스 분석가도 데이터 과학자가 되려면, 덜 가공된 데이터를 정제하기 위한 프로그램 코딩 작업과 데이터 활용에 대한 전반적인 지식 그리고 깊이 있는 데이터 마이닝과 고급 분석 알고리즘에 대한 경험이 필요하다.

게다가 이런 저런 전문 지식까지 필요하니, 이 바닥도 빈익빈 부익부가 펼쳐지는 것일까?

액시엄은 하나의 프로젝트에 5명에서 많게는 10명 정도로 팀을 구성하여 투입하고, 컨설팅은 짧게는 3개월, 길면 1년 반 정도 진행된다. 프로젝트 팀은 시스템 프로그래머, 데이터 솔루션 컨설턴트, 데이터 분석가, 데이터 품질 담당자, 팀 코디네이터, 팀장으로 구성되고, 데이터 웨어하우스가 구축되면 그쪽은 그쪽대로 IT팀을 새로 구성해 별도로 진행한다.

비즈니스에 데이터 분석을 접목하고 싶은 입장으로 책을 읽었지만, ‘아, 나는 못하겠구나’ 하는 작은 좌절감도 맛봤다. 빅데이터라고 해서 꼭 빅 사이즈 기업만 할 수 있는건 아닐텐데, 작은 데이터 분석 사례도 다뤄주면 좋았겠다 하는 아쉬움이 있다.
 

그래서 우리는 어떻게 해야 하나?

마이크로소프트웨어 데이터 사이언스 특집을 만들며, 관련 정보를 보고 있자니 답답한 면도 있다. 그래서 ‘나는 뭘 해야 하는가?’ 하는 질문이다.

데이터로부터 필요한 신호를 가려내고 해석하고 그것으로부터 얻은 인사이트를 활용해 인간에게 가치 있는 무언가를 만들어내는 일은 오직 사람만이 할 수 있다.

오직 사람만이 할 수 있다고 하는데, 그걸 할 수 있는 사람도 부족하다고 한다. 심지어 저자는 한국도 떠나라고 한다. 전문 지식이 부족하고, 영어도 안되지만 그래도 살아남아야 하는 입장에서는 어떤 준비를 먼저 어떻게 해야 할지 고민이 된다.
많은 부분이 대체되는 것은 이해했다. 이제 앞으로의 미래에 대한 글은 그만 봐도 될 정도다. 아쉽지만 그래서 어떻게 해야 하는지에 대해 이야기 하는 사람은 없다.

빅데이터 시대의 진정한 의미는 중요한 의사 결정을 내릴 때 직감이 아닌 데이터에 기초해 과학적이고 합리적인 결정을 내리겠다는 조직 문화의 변화에 있다.

 
빅데이터 시대다. 그래서 내가 뭘 해야 할지에 대한 의사 결정은 어떤 데이터에 기초해 내려야 ‘과학적이고 합리적’일까?
 
 

[ 인상 깊은 문구 ]


  • 데이터 과학자는 통계분석가가 될 수 있지만, 통계 분석가가 데이터 과학자가 되려면 준비 과정이 좀 더 필요하다. 마찬가지로 주로 BI(Business Intelligence) 툴을 사용해 과거 데이터나 정제된 보고서식 통계 데이터를 분석하는 비즈니스 분석가도 데이터 과학자가 되려면, 덜 가공된 데이터를 정제하기 위한 프로그램 코딩 작업과 데이터 활용에 대한 전반적인 지식 그리고 깊이 있는 데이터 마이닝과 고급 분석 알고리즘에 대한 경험이 필요하다.
  • “초급 분석가가 쓸모 있는 데이터 과학자가 되기까지 몇 년이 걸리느냐”는 케이디너겟츠닷컴의 설문에 응답자의 50% 이상이 5~8년 걸린다고 답했다. 아닌 게 아니라, 최소 3년은 실제 데이터 작업을 해봐야 기본적인 기초 통계 분석이 어느 정도 가능하다. 학교에서 기초 통계 시간에 평균(mean), 중앙값(median), 최빈값(mode)을 다 배우지만, 현장에서 데이터를 보고 문제 현황을 파악할 때 어떤 값을 기준값으로 사용해야 할지 판단을 못하는 경우도 허다하다. 또한 학교의 샘플 데이터와 현업의 데이터는 차이가 너무 크다.
  • 실제 비즈니스 현장에서는 우주과학자나 물리학자, 수학자만 쓸 수 있는 복잡한 알고리즘을 사용해야 하는 분석 과제는 많지 않고 복잡한 알고리즘은 현업에 적용하기도 쉽지 않다. 데이터 과학자는 검증된 알고리즘을 사용하는 사용자이지 알고리즘 개발자는 아니라는 것을 기억하자.
  • 결국 빅데이터 플랫폼에 사용하는 소프트웨어나 활용 기술을 선정하는 것도 비즈니스 실정에 맞게 해야 하고, 복잡한 알고리즘을 사용할 수 있는 분석 툴도 고려해야 한다. 더불어 대용량 데이터 처리도 가능해야 하지만, 새로운 기술에 적응할 수 있는 융통성과 고객의 요구에 빠르게 대처할 수 있는 순발력도 있어야 한다.
  • P&G는 5단계에 이른 현재, 비즈니스 분석팀장은 회사 전략이나 비즈니스 영역에 그의 기술과 역량을 제공하고, 비즈니스 분석가는 데이터 분석을 활용해 한 부서의 목적보다는 전사적 안목으로 기회를 찾아 적용하고 문제를 해결하기 위한 가설을 세웠고, 데이터 과학자는 데이터를 가지고 복잡한 통계 모형을 만들고, 데이터 팀장은 회사의 의사 결정 프로세스에 필요한 분석 결과를 적용하기 위해 IT 아키텍처를 전사적 안목으로 재구상하여 빅데이터(비정형 포함)를 비즈니스에 활용할 수 있게 만들었다고 한다.
  • 월드 와이드 웹(World Wide Web)의 창시자 팀 버너스 리는 “데이터는 정보가 아니고, 정보는 지식이 아니며, 지식은 이해가 아니고, 이해는 지혜가 아니다”라고 했다.
  • 클로즈 루프 프로세스란 데이터 수집에서부터 평가 모니터링까지 원 모양으로 순환하는 데이터 프로세스를 말한다. 다양한 채널에서 생성되는 데이터를 수집, 가공, 분석해 실행 가능한 조치를 현업에 적용하게 되는데, 적용한 후 최소 3개월에서 6개월까지는 아무 일도 일어나지 않을 수 있다. 더러는 그 기간이 1년까지 길어지기도 하는데, 이렇게 긴 기다림 끝에 넘겨받은 데이터를 다시 평가, 분석하고 그 결과를 다음 개발 작업에 또다시 반영한다. 이러한 작업을 반복해 조금이라도 더 발전된 실행 조치를 지속적으로 현업에 반영하는 순환 프로세스다.
  • 사람 중심의 조직에서는 의사 결정을 개인의 경험에 의존해 직관적으로 하는 경우가 많지만, 일 중심 조직은 프로세스와 프로세스 관리 위주로 의사를 결정하므로 담당 책임자가 바뀌어도 영향을 덜 받는다.
  • 액시엄은 미국 인구 대부분에 해당하는 약 3억 명의 개인정보 데이터를 보유하고 있다. 전 세계로 범위를 넓히면 자그마치 7억 명이 넘는 개인정보를 수집하고 관리한다. 한 사람당 약 1,500가지의 원천 데이터와 그것을 가공 정제한 1,000가지 정도의 정제된 고급 데이터를 보유하고 있으니 어마어마한 양이다.
  • 액시엄은 개인 식별 번호인 사회보장번호(Social Security, 한국의 주민등록번호)를 그대로 사용하는 것은 개인정보 유출의 위험이 있고 데이터 정제 과정에서도 효율적이지 못하다는 것을 깨닫고 1999년부터 어빌리테크 키(Abilitec Key)라는 자체 식별 번호를 생성해 내부 활용 및 외부 컨설팅과 판매도 하고 있다.
  • 액시엄은 하나의 프로젝트에 5명에서 많게는 10명 정도로 팀을 구성하여 투입하고, 컨설팅은 짧게는 3개월, 길면 1년 반 정도 진행된다. 프로젝트 팀은 시스템 프로그래머, 데이터 솔루션 컨설턴트, 데이터 분석가, 데이터 품질 담당자, 팀 코디네이터, 팀장으로 구성되고, 데이터 웨어하우스가 구축되면 그쪽은 그쪽대로 IT팀을 새로 구성해 별도로 진행한다.
  • 액시엄 스스로도 데이터의 30% 정도는 정확성이 떨어진다고 인정한다. 그러나 마케팅 분야에서는 정확도 70%인 품질이 낮은 데이터도 데이터 과학자의 손을 거치면 충분히 가치 있는 정보로 변신한다. 이런 데이터가 얼마나 중요한지는 구글 분석 도구 개발 담당자로 6년 가까이 일했던 필 뮤이 박사가 2012년에 액시엄으로 옮겨온 이유를 보면 짐작할 수 있다.
  • GM 온스타 CEO로 14년 간 일해 온 체스터 휴버는 GM이 지금의 온스타를 만들기까지 수백만 달러의 수업료를 지불했다고 말했다. 휴버가 처음 이 사업을 맡았을 때만 해도 이 프로젝트는 그가 경영대학원에서 배웠던 위험한 프로젝트 분류 기준인 VUCA, 즉 변화속도(Volatility), 불확실성(Uncertainty), 복잡성(Complexity), 모호성(Ambiguity)을 다 갖추고 있었다고 한다.
  • 이 고객은 32살 여자다. 혼자 거주하며 대학을 졸업했고 소득은 연 5천만원 정도이고 집을 소유하고 있고 가장이고 아이가 하나 있다. 자동차와 투자에 관심이 많고 컴퓨터, 사냥, 골프, 오토바이, 아웃도어 스포츠 그리고 여행에도 관심이 있다. 관심 있어 하는 자동차 브랜드는 포드, 지엠씨, 닷지이다. 그리고 이 고객은 관심 브랜드 중 하나였던 포드의 SUV를 샀다. 다른 브랜드가 아닌 평상시 관심있어하던 브랜드 중 하나를 구매했다는 사실에서 이 데이터의 가치를 알 수 있다.
  • 액시엄의 조사에 따르면 파산자의 37%가 파산 과정에서 차를 팔아치우고 30일 만에 다시 차를 산다고 한다. 그리고 20~25%는 파산 후 6개월 안에 다시 차를 구입하고, 10%는 1년 안에 차를 구입한다. 도한, 새로 이사 온 집주인의 20%는 1년 안에 새 차를 산다. 이러한 자료를 기초로 관련 있는 변수들을 모아 지수 작업을 했고, 소득이나 신용 상태도 활용할 수 있도록 만들었다.
  • 금융 분석 보고서의 산출 지수들은 CAMELS, 즉 운영 자금의 적정성(Capital Adequacy), 자산의 건전성(Asset Quality), 경영 능력 및 시스템(Management Quality), 영업 수익성(Earnings), 자금의 유동성(Liquidity), 시장이나 이자 변동에 대한 민감성(Sensitivity) 등 은행 경영 성과를 전반적으로 측정한다.
  • 보고서를 생성하면서 가장 중요한 작업은 각각의 수치가 올바른 게산 방식에 따라 정확히 산출되었는지 확인하는 것이다. 각 사업부나 지사에서 보내온 데이터를 통합하여 작성하는 일이기 때문에, 일일이 확인하는 작업이 무엇보다 중요하다. 또한 이 작업은 품질 관리 과정에서 해당 분야의 지식이 필요한 작업이기도 하다. 즉 은행이라면 금융 지식이 필요한 작업인 것이다.
  • 더 월을 구축하기 위해 메트라이프 기술팀은 우선 10젠(10Gen)이라는 빅데이터 컨설팅 회사의 도움을 받아 NoSQL 데이터베이스인 몽고디비(MongoDB)를 사용해 70가지의 레거시 시스템을 통합했다.
  • 기계학습 또는 분석 알고리즘을 사용할 때 중요하게 고려해야 할 것은 정확도(예측력), 실행 속도(run time), 변수 간 인과관계에 대한 모델의 설명력, 그리고 간결성이다. 현업에 적용할 때는 늘 정확도와 나머지 요소들(속도, 설명력, 그리고 간결성) 사이에서 타협을 해야 한다. 모든 것이 좋으면 좋겠지만 대부분의 경우 그렇지가 못하다.
  • 넷플릭스는 오라클의 문제점으로 인해 오라클로 개발된 SQL 데이터베이스를 아파치 카산드라(Cassandra)로 교체했다. 우선 오라클은 비용이 많이 들고, 모든 데이터가 한 곳에 집중돼 있어야 하는 문제가 있었다. 그리고 2주에 한 번씩 새로운 데이터베이스의 논리구조(Schema)로 바꿀때마다 10분 이상 다운타임을 가져야 한다는 것도 문제였다.
  • 넷플릭스 플랫폼은 오프라인(Offline), 준실시간(Nearline), 온라인(Online)의 3가지 모듈로 구성돼 있고 모든 인프라는 아마존 클라우드 서비스에서 운영된다.
  • 준실시간은 온라인에서 고객이 요구하는 좀 더 복잡한 이벤트를 오프라인과 온라인의 중간 작업으로 해결한다. 예를 들어 고객이 추천 영화를 보면 이를 바로 반영해 새로운 영화를 추천할 준비를 한다.
  • 미국은 GM 자동차나 메트라이프의 기술 인력 관리 사례에서 보았듯이 활용 계획과 고급 운영 기술 인력을 일순위로 놓고 예산을 짠다. 소프트웨어나 하드웨어는 일을 하는 데 필요한 도구일 뿐이고 정작 성과를 내는 것은 어떤 인력이 어떤 기술과 실력을 갖추고 얼마나 잘 활용하느냐에 따라 달라진다는 것을 잘 알고 있기 때문이다. 인적 자원의 기술과 실력이 최우선이다.
  • 미국 CRM 전문 컨설팅 업체인 뉴클리어스(Nucleus) 연구소의 발표에 따르면, CRM을 통해 얻는 혜택이 최대 100%라고 가정할 때 직접적 매출 증가 혜택은 30%이고 간접적 헤택이 70%라고 한다. 또한 인프라 도입이나 솔루션 개발 후 평균 2.5~3년이 지나야 실질적인 효과가 나타나기 시작한다고 한다.
  • 팀원들의 역량과 인력도 부족하다. 보통 한 팀에 팀장 1명, 데이터 분석 2명, 운영 2명 등 5~6명의 팀원이 있는데, 이런 인원 구성으로는 우수 고객 서비스 관리 프로그램만 운영하기에도 바쁘다. 분석 팀원만 몇백 명인 미국 기업들과는 사뭇 다른 모습인 것이다.
  • 고객의 각기 다른 필요에 맞춰 상품과 서비스를 제공하기 위해서는 고객을 잘 알아야 한다. 고객을 알려면 누가 회사에 이익을 주는 고객인지, 반대로 누가 손해를 끼치는 고객인지, 누구에게 더 많은 상품을 팔 수 있는지 등 많은 정보가 필요하다.
  • 제조업 분야의 특징은, 데이터가 매우 다양해 수백에서 수천 개에 이르는 변수를 가지고 있다는 것이다. 제조업 분야에서는 연속되는 값의 데이터를 분석하는 경우가 많고, 데이터 자체가 정량적으로 측정된 값인 경우가 많다. 다시 말해 제조업 데이터들은 인문 사회 분야와는 다르게 직관적으로 이해할 수 있는 변수가 적으며, 전문적인 지식을 필요로 할 때가 많다.
  • 즉 특정 변수들이 동시에 일정 값 이상(정확히는 정상 동작 시간이 가지는 분포)을 벗어났을 때 짧게는 40분에서 길게는 70분 후에 장비가 멈추는 현상이 나타나는 것을 알 수 있었다. 이를 통해 생산 엔지니어들은 어느 한 장비에 과부하가 걸리지 않게 생산 자재 공급량을 조절하거나 장비를 점검하는 등의 최소 30분의 시간을 갖게 됐다.
  • 2004년 구글 소속이었던 제프리 딘(Jeffrey Dean)이 맵리듀스(MapReduce)에 관한 논문을 발표한 데 이어 2005년 야후의 더그 커팅(Doug Cutting)이 하둡 개발에 성공했다.
  • 빅데이터 시대의 진정한 의미는 중요한 의사 결정을 내릴 때 직감이 아닌 데이터에 기초해 과학적이고 합리적인 결정을 내리겠다는 조직 문화의 변화에 있다.
  • 통계청 공공 데이터를 적절히 활용하기 위해서는 읍, 면, 동을 평균 30개 정도로 나눈 크기인 집계구 단위를 조사구 단위로 더 세분화하는 것도 가능해야 하고, 정제 과정에서는 가구 단위로도 활용할 수 있어야 한다.
  • 액시엄에 따르면 마케팅에 활용이 가능하다(marketable record)는 의미는, 예를 들어 홍보 우편물을 발송한다면 데이터의 우편 주소에 적힌 바로 그 사람에게 우편물이 한 번에 정확히 전달된다는 것을 뜻한다.
  • 지난 40년간 개인 정보를 보호하기 위해 꾸준히 노력해 온 미국의 개인 정보 관련 주요 법안들을 보면, 미국은 신용, 보험, 고용, 주택 임대, 미성년자 의료 정보 관련 등 주요한 사항을 제외하고는 개인 소비자 정보를 기업이 보유하고 마케팅에 활용하는 것에 대한 지침서는 있어도 금지시키는 법은 없다.
  • 필자는 데이터 과학자나 개발자들, 또는 가능성이 엿보이는 예비 엔지니어들에게 영어 실력만 갖추었다면 외국 기업에서 일하라고 조언한다. 한국 기업에서는 지금의 인력 관리 구조가 바뀌지 않는 한 순수 데이터 과학자나 숙련된 IT기술 개발자로서의 미래는 불투명하다고 보기 때문이다.
  • 데이터로부터 필요한 신호를 가려내고 해석하고 그것으로부터 얻은 인사이트를 활용해 인간에게 가치 있는 무언가를 만들어내는 일은 오직 사람만이 할 수 있다.