[읽게 된 동기]


 
지난 해 부터 데이터 사이언티스트에 대한 관심이 많다. 아마도 작년에 산 책인 것 같다. 데이터에 대한 관심이 생기기 시작하던 그때.
 

[한 줄 평]


 
2014년에 쓰여진 책. 하지만 2016년인 지금 한국의 제도적 문제는 그대로다. 대한민국의 안좋은 지표들이 자꾸 보이기 시작한다.
 

[서평]


 
데이터로 가족의 임신을 먼저 알았던 마트, 빅데이터 야구 머니볼, 영화 마이너리티 리포트, 빅브라더 문제 등 이제는 데이터 관련 이야기들이 많은 이들에게 알려지고 있다.
데이터에 대한 가능성을 알게 되면서 나는 굉장히 흥분했었다. 나는 데이터를 다루는 일을 하고 싶었고, 그 일을 하기 위해 도전을 시작했다. 내가 집중한 부분은 뉴스 관련 분야인데, 굉장한 가능성이 있다고 생각한다.
 

교통 시스템 강국. 대한민국

 
우리나라는 더이상 세계 최고 IT 강국이라 부르기엔 무리가 있다. IT 의 본고장이자 절대 강자인 미국에 비하면 많이 부족하지. 하지만 우리나라도 충분히 대단한 현재를 보유한 나라이고, 잠재력 또한 무궁무진하다.
본문에서 남미에 진출한 LG CNS의 이야기가 나오는데, 생각보다 우리나라의 대중교통은 대단하다는 생각이 들었다. 콜롬비아의 교통 시스템을 개발한 LG CNS 는 최근 말레이시아에도 교통 시스템을 수출하며 기술력을 인정 받고 있다고 한다. (LG CNS, 말레이시아에 교통 시스템 수출 쾌거)
교통 시스템은 간단한 시스템이 아니다. 단순 결제가 아닌 환승이나 거리비례 계산도 해야하며, 특히 GPS 등을 이용해 운행이 올바르게 되고 있는지도 확인을 해야하고, 이에 따라 즉각 대응이 되어야 한다.
남미 등에서는 절도, 납치 등의 범죄가 택시 등에서 많이 일어난다고 한다. 이를 시스템으로 보호할 수 있다면 단순히 ‘편리’ 를 위한 투자라고 한정 지을수는 없다. 누군가에게는 생명이 달린 문제이기도 한 것이다.
 
우리나라는 카카오 택시와 지하철 등 대중교통 관련 시스템이 굉장히 잘 되어있는 나라다. 카드 한장이면 전국을 돌아다닐 수 있으며, 지하철과 버스의 환승 또한 안정적이다.
그동안의 프로젝트 경험으로 보았을때, 우리나라 교통 시스템은 굉장히 안정적으로 운영되고 있다고 볼 수 있다. 간혹 지하철 사고 등이 일어나고는 있지만, 천재지변이나 사고 등으로 일어나는 것이기에 시스템의 문제라고 보기엔 어려움이 있다고 생각한다.
 

스포츠, 의료, 뉴스 등의 비즈니스

 
빅데이터를 활용한 머니볼은 유명하다. 최근에는 축구 등에도 빅데이터가 활용되고 있다. 간단한 예로는 PK 분석 등이 있겠고, 측정 기술이 좋아지면서 선수들의 움직임 하나하나가 분석되기 시작했다.
 

스포츠결과 예측이 극도로 고도화되면 사람들이 스포츠복권 포트폴리오를 적절하게 구성해 시중금리를 살짝 웃도는 수준의 기대수익률을 보장받는 미래가 열릴 수도 있다. 스포츠가 하나의 거대한 금융상품으로 완전히 자리를 잡는 것이다.

 
다소 우려스러운 부분이 있기는 하다. 나는 스포츠 토토 등 도박에 대해서는 굉장히 반대한다. 특히 이를 통해 돈을 벌려는 사람들은 이해가 되지 않는다. 스포츠는 즐기는 것이라고 생각한다. 그들이 혼신을 다해 달리는 모습을 보면서 어찌 ‘내돈!! 내돈!!’ 하면서 볼 수 있는가?
스포츠 승부 조작에 연루된 사람들은 관련 업계에서 모두 퇴출시켜야만 한다. 스포츠야말로 프로정신이 그대로 보여지는 곳이라고 생각한다. 온전히 자신이 노력한 땀의 결실을 가지고 건강한 규칙 안에서 보여주는 것. 이 아름다운 스포츠를 ‘금융상품’ 따위로 언급하다니 굉장히 불쾌한 문구다.
 
의료 관련 시장 이야기는 굉장히 인상적이었다. 특히, 앞으로는 의료의 접근 방법이 통째로 바뀔 것 같은 느낌이 들었는데, 이는 인류에게 굉장한 변화를 가져올 듯 싶다.
 

빅데이터가 의료 분야와 접목돼 새로운 가치를 창출하고 있다. 의료는 그동안 병에 걸리면 그때부터 치료한다는 ‘사후적 개념’이 강했다. 하지만 빅데이터가 본격적인 ‘예방 의료시대’를 열고 있다.

 
안젤리나 졸리는 유방암에 걸릴 확률을 보고는 미리 절단 수술을 했다고 한다. 최근 주변에서 안좋은 소식들이 많이 들린다. 아픈 사람이 있던가, 돌아가신 분이 있던가. 사랑하는 사람을 잃는 것은 너무도 괴로운 일이다. 이런 괴로움을 예측하여 막아줄 수 있다면 그야말로 가치있는 일이 아닐까 싶다.
 

비즈니스란?

 
비즈니스를 해보기로 마음 먹고 홀로 서기를 하면서, 정말 많은 것을 느끼고 있다. 역시나 쉽지 않다는 것이다. 우리는 흔히 ‘남의 돈 버는 것은 어렵다’ 라고 말한다. 맞다 굉장히 어렵다. 하지만 비즈니스 자체를 만드는 것은 더 어렵다.
나는 학교에서 ‘돈 버는 법’ 을 가르쳐야 한다는 생각이다. 책으로만 배울 것이 아니라, 직접 자본금을 쥐어주고 뭐든 돈을 벌어보게 해보고 그 경험을 나누는 것이다. 물론 건강한 방법으로.
자본주의 사회에서는 자본의 중요성을 아무리 강조해도 지나치지 않는다. 하지만 우리 사회는 자본에 대해서 너무 부정적인 반응을 보인다. 흔히 ‘돈돈돈 거린다’ 라고 한다. 돈은 매우 중요한 것이다. 또한, 이를 잘 사용하면 정말 윤택한 삶을 살 수 있다. 돈을 무시하는 것은 어른스럽지 못한 행동이기도 하다. 현재를 무시하는 것이니까.
 

빅데이터는 양이 중요한 것이 아니라 데이터를 통해 인사이트를 얻는 것이 중요하다.

 
데이터를 읽는 것. 이것이 비즈니스다. 나는 지난 두 달간 비즈니스적 마인드를 키우기 위해 많은 생각을 했고, 그 결과 작은 아이템 하나를 만들게 되었다. 이 아이템은 당장 수익을 낼 수 없어 어떻게 유지해야 할지 막막하긴 하지만, 그럼에도 이런 작은 아이템을 만들었다는 것은 고무적이다.
데이터를 읽고, 만드는 일을 하지 못한다면 앞으로는 비즈니스를 할 수 없게 된다. 아니, 일 자체를 하지 못하게 될거라 생각한다. 그런 일이 아니라면 모두 로봇이 대체 할 테니까.
 
260페이지의 얇은 책이지만, 안에 담긴 내용은 굉장히 알차고, 때로는 무겁다. 이런 인사이트 넘치는 책을 볼때면, 나는 언제쯤… 이런 글을 쓸 수 있을까 싶다.
디지털 금맥, 빅데이터. 이녀석을 다룰 수 있는 날이 머지 않았기를 바란다.
 

[인상 깊은 문구]


 

  • 클라밋은 미 전역을 2,000만 단위로 쪼개 주요 작물의 토지, 지형, 날씨에 따른 단위별 연간 작황 정보를 보유하고 있는 것으로 알려졌다.
  • 데이터의 생산단계에서 저장할 것과 압축할 것, 그리고 버릴 것을 가려내는 기술이 매우 중요하다.
  • 알막스는 이 마네킹을 통해 통상적으로 할인기간의 첫째 날과 둘째 날에는 남성들이 여성에 비해 소비를 많이 한다는 것을 발견하고 할인 제품 디스플레이 위치를 바꿀 것을 조언했다.
  • 눈이 많이 오면 본인 물건보다는 생필품이나 아이들 물건을 먼저 사는 주부가 많아 해당 상품을 한자리에 배치하는 마케팅 전략을 도입하고 있다. – 현대백화점
  • 1년간 데이터를 모은 하라스는 흥미로운 사실을 발견했다. 카지노에서 가장 많은 돈을 사용하는 사람은 관광객이 아니라 도박 자체를 즐기는 목수, 교사 등 평범한 직업을 가진 인근 거주자라는 점이 그것.
  • 카지노에 오면 평균 1시간가량 게임을 즐기는 고객이 있다고 하자. 그러면 방문 후 55분 가량이 지났을 때 일부러 무료 게임 쿠폰을 제시함으로써 고객이 카지노에 머무는 시간을 좀 더 늘리도록 하는 것이다. 그 결과는 어땠을까? 토탈 리워드 카드를 만든 2004년 이후 지금가지 하라스는 미국 내 카지노 고객 만족도 1위 자리를 단 한 번도 뺏긴 적이 없다.
  • 당시 대회 관련 소셜네트워크서비스에 가장 긍정적으로 언급된 ‘앤디 머레이(37% 긍정, 52% 중립)’ 가 결국 우승컵을 들어올려 빅데이터를 활용해 정확히 우승자까지 맞힐 수 있는 가능성을 보여주기도 했다.
  • 스포츠결과 예측이 극도로 고도화되면 사람들이 스포츠복권 포트폴리오를 적절하게 구성해 시중금리를 살짝 웃도는 수준의 기대수익률을 보장받는 미래가 열릴 수도 있다. 스포츠가 하나의 거대한 금융상품으로 완전히 자리를 잡는 것이다.
  • 빅데이터 핵심은 분류와 예측이다. 야구를 예로 들면 2군에 있는 선수가 1군으로 갈 수 있을지 혹은 2군에 머물지, 특정 선수의 몸값은 앞으로 어떻게 될지 예측할 수 있다.
  • 빅데이터가 의료 분야와 접목돼 새로운 가치를 창출하고 있다. 의료는 그동안 병에 걸리면 그때부터 치료한다는 ‘사후적 개념’이 강했다. 하지만 빅데이터가 본격적인 ‘예방 의료시대’를 열고 있다.
  • 유방암 위험 지표 계산에 의하면 졸리의 유전자 변이는 87%의 유방암 위험 지표 수치이고, 50%의 난소암 위험 재표 수치였다고 한다. 수술 후 졸리의 유방암 위험 지표 수치는 5% 이하로 내려 갔다고 한다.
  • 바이오 빅데이터는 비싼 데이터다. 빅데이터의 대표적인 예가 소셜 네트워크 데이터인데 이러한 데이터는 생산 비용이 들지 않는다. 하지만 생물정보 데이터는 데이터가 실험에 의해 생산되기 때문에 비용이 많이 든다.
  • 하지만 T맵 역시 3만 5,000대 샘플정보에 의존하고 있다는 점에서 빅데이터 분석으로 볼 수는 없다.
  • 삼성SDS는 삼성전자, 삼성생명 등 그룹 관계사의 파일럿 프로젝트를 통해 빅데이터 사업을 펼치고 있다. 예컨대 삼성전자가 ‘갤럭시S%’와 같은 신제품을 기획한다고 하면 SNS 등에 올라온 소셜 데이터를 분석해 소비자가 원하는 기능 수요을 삼성전자에게 알려주는 방식이다.
  • 빅데이터 분석만으로는 의미가 없어요. 빅데이터를 활용해 성공적인 비즈니스 모델을 구축하는 게 중요합니다. 그런데 우리나라는 데이터 분석에는 관심이 많아도 그것을 활용해 사업모델을 만드는 데는 너무 뒤처져 있어요.
  • 빅데이터는 양이 중요한 것이 아니라 데이터를 통해 인사이트를 얻는 것이 중요하다.
  • 1815년 어느 여름날, 워털루 전투에서 영국군이 프랑스군에 패했다는 루머가 돌자 영국의 국채 가격이 곤두박질쳤다. 당시 유럽대륙에 넓은 정보망을 구축하고 있던 로스차일드 가문은 전날 영국이 승전했다는 소식을 미리 접하였고, 이를 근거로 국채의 가격이 이전의 5% 정도로 폭락한 시점에 대량으로 매입하였다. 다음날 영국 정부가 공식적으로 워털루 전투에서의 승리를 공표하자 로스차일드 가문은 사들였던 국채를 되팔아 20배에 이르는 이득을 챙겼다.

  • 초단타매매는 짧은 시간 내에 대량의 주문을 대단히 빠른 속도로 처리하며 이익을 취하는 전략으로 일반적인 전통적 거래에 비해 짧은 시간 동안 주식을 보유하는 반면(평균 11초), 컴퓨터 알고리즘을 활용한 빈번한 거래를 통해 2003년도에 15%였던 점유율이 현재는 전체 거래량의 약 85%를 점유하고 있다.
  • 시러큐스시는 부동산 데이터를 중심으로 생활과 밀접한 변수간 상관관계를 파악해 대안을 마련했다. 택지를 전면 재조정해 주민 이주율을 낮추고, 실직한 남성의 재취업을 돕기 위한 교육 프로그램도 운영했다.
  • 전체 부동산 데이터를 100이라고 가정했을 때 정형화 데이터가 10정도고 나머지는 모두 비정형 데이터다. 빅데이터 시대 부동산은 이 같은 비정형 데이터를 어떻게 분석하고 예측하느냐가 중요하다.
  • 미국 빅데이터 학자 신시아 루딘은 2009년 뉴욕을 가득 메운 맨홀 5만 1,000개와 관련된 방대한 데이터를 모았다. 여기서 폭발을 좌우하는 키포인트 106개를 뽑아 터질 위험이 높은 맨홀을 예측했다. 이후 심각한 사고를 일으킨 맨홀 44%는 루딘이 찍은 ‘위험 상위10% 고위험군’에 속할 정도로 예측은 정확했다. 빅데이터 힘으로 한발 앞서 대처한 덕이 심각한 사고를 예방한 것이다.
  • 한국 현대사 최악의 참사로 기록될 세월호 상황을 보자. 사고 당일 진도관제센터 관제사는 오전 8시 48분 바다 한가운데 멈춰선 세월호 궤적이 모니터에 찍혔는데도 이를 발견하지 못했다. 선박이 빅데이터로 분석한 정상항로에서 멈출때 알람 사인을 보내는 솔루션이 있었다면 천금 같은 시간을 그냥 흘려버리지 않았을 가능성이 높다.
  • 사고직전 카카오톡 메시지에 올라온 ‘배가 기울고 있다’, ‘구명조끼를 입었다’는 텍스트를 분석해 로봇이 자동으로 위험을 경고하는 솔루션이 있었다면 조기에 대응할 수 있었을 것.
  • 기술은 인간을 풍요롭게 하기 위해서 존재하는 것이지, 인간을 옥죄는 도구가 된다면 이를 극복할 해법이 필요하다.
  • 네트워크 자체가 한 곳에 집중되지 않고 양파처럼 층층이 분산돼 있기 때문에 복잡성의 증가로, 시스템의 실패를 예측하는 것이 거의 불가능하다고 했다.
  • 모바일 보안은 거의 없는 수준이라고 봐야 한다. 사용자 입장에서 스마트폰에 최소한의 앱을 까는 것이 낫다.
  • 두 업종 데이터를 융합해서 뭐를 좀 해보려고 하면 그때마다 개인정보보호법에 걸려서 할 수가 없는 거예요. 물론 개인정보보호가 중요하지만 빅데이터 솔루션을 도입한다고 해서 해킹 위협이 늘어나는 건 아니거든요. 둘 다 병행발전하려는 노력이 중요한데 제도를 좀 개선할 필요가 있습니다.
  • 수집단계에서부터 목적을 한정해 동의를 받다보니 당초 목적과 다른 곳에서 데이터를 쓰려면 전부 일일이 동의를 받아야 하는 문제가 발생한다. 사실상 데이터를 쓰지 말라는 얘기
  • 소비자 입장에서의 피해의 가능성도 있다. 소비자의 구매패턴과 인터넷 검색패턴을 분석하여, 특정 소비자가 아마존을 통해 반복 구매를 하기 시작하고 또한 다른 경쟁사 사이트를 통해서는 구매할 가능성이 낮은 것으로 파악되면, 그때부터는 가급적 가격을 올려 받고자 하는 유인이 존재하기 때문이다.
  • 주어진 개인정보 취급방침이나 약관을 실제로 읽어보고 진정 동의한다고 생각하고 동의하는 소비자가 얼마나 있겠는가? 거의 없다. 설문조사를 해보면 스스로 일부라도 읽어본다고 답을 하는 소비자의 비율이 30% 내외인 것으로 나타난다.
  • 수많은 데이터를 손에 쥐고 있으면 뭐합니까. 데이터 이면을 분석해 활용해야 의미가 있지요.
  • 데이터의 가치는 그것을 활용하는 ‘사람’에게 달려 있기 때문이다.
  • 복잡한 데이터의 시각화는 작업기억의 확장으로 볼 수 있으며 이를 통하여 문제해결을 위해 필요한 인지적 부담을 줄일 수 있게 되고, 결과적으로 문제 해결 능력의 향상을 가져오게 된다.
  • 시각화 기술은 인간이 가진 놀아누 시각 능력을 활용하여 글이나 숫자로는 설명하거나 이해하기 어려운 복잡한 문제들을 효과적으로 풀 수 있는 직관적인 해답을 제시할 수 있다는 장점이 있다.
  • 대규모 데이터베이스에서 정제된 기사패턴을 학습하여, 기업 주가나 스포츠 경기 결과와 같은 수치화된 데이터가 주어지면 자동으로 자연언어로 된 기사를 생성하는 것이다.
  • 이러한 n-gram을 이용하여 ‘I have boat’라는 문장을 교정해보기로 하자. Google n-gram 에 의하면 이 3-gram(I-have-boat)의 출현율은 0.0%인데, 이는 800만 권에 거의 한 번도 나오지 않은 문장패턴이므로 오류일 가능성이 매우 높다고 할 수 있다.