[ 읽게 된 동기 ]


과거 명성있던 소프트웨어 전문 잡지. 올해 복간하여 그 명성을 잇고자 함. 기술자로써 트랜드를 익히기 위해 선택.
 

[ 한줄평 ]


인공지능과 관련된 다양한 분야의 관계자들.
 

[ 서평 ]


 
대학교 4학년.
졸업작품을 만들었다. 한 축구 구단의 데이터를 가지고, 모바일 앱을 만들었는데 이 과정에서 IT 멘토링의 멘토님께 여러 도움을 받았다. 당시 멘토님은 그동안의 과정을 글로 써보자며 제안을 하셨고, 그 글의 기고 대상 중 하나가 ‘마이크로소프트웨어’ 였다.
‘마이크로소프트웨어’ 가 아닌 다른 공모전에 제출했고, 거기서 입상을 해 재미난 추억으로 남아있다.
입사 후에는 인사팀에 요청해 ‘마이크로소프트웨어’ 를 구독하기도 했고 여하튼 몇차례 인연이 있던 잡지였다.
 
온라인이 활성화 되면서 ‘마이크로소프트웨어’ 는 휴간했고, 그 잡지가 다시 복간했다고 한다. 그리고 AI 인공지능 387호는 2017년 1월에 발간된 복간 호이다.
 
많이 늦었다. 이 잡지가 내 손에 들린지 무려 11개월이 지났다.
워낙 책 욕심이 있는 덕에 읽는 책 보다 사는 책이 더 많다. (휴…) 어제도 리디북스에서 10만원 페이백 이벤트를 하기에 무려 80권 세트를 질렀다. 으… 이것은 고치기 힘든 병일테다.
 
최근 ‘마이크로소프트웨어’ 에서 진행했던 ‘마소콘 2017‘ 에도 참석했고, 계속해서 이 잡지가 눈에 밟혀 마음먹고 자리에 앉아 읽었다. 잡지를 읽으며 생각해보니 이런류의 기술 잡지를 ‘정독’ 한 것은 처음인 것 같다.
HBR 이나 매거진B 등의 경영, 마케팅 서적은 정독한 적은 있으나 실제 ‘코드’ 가 적힌 기술 잡지를 처음부터 끝까지 읽은 것은 처음이었다. 물론, 나도 전공자니까 간간히 챕터별로 훑어보긴 했었지.
 
사실 온라인 상에서 못얻을 정보는 없다. 하지만, 우리의 시간은 한정되어 있기에 정제된 그리고 검증된 정보를 손쉽게 얻는 것은 역시, 누군가의 편집이 필요하다. 하지만 역시 기술은 너무도 빨리 변하기에 종이책이 갖는 단점도 분명히 있다.
그럼에도 ‘마이크로소프트웨어’ 는 나름의 맛이 있었다. 그 맛을 나누고자 한다.
 
 

알파고. 이제는 조금 잊혀진 이름.

 
 
알파고 쇼크라고들 했다.
바둑에 흥미가 없던 나조차도 대국을 라이브로 틀어두곤 했으니, 당시의 충격이 크긴 했다. 복간한 ‘마이크로소프트웨어’ 는 인공지능을 주제로 한 권의 잡지를 내놨다.
 
모바일 개발자로써 사실 인공지능과 딱히 관련이 없는 일을 해왔다. 나는 주어진 기획에 따라 데이터를 뿌리고, 만들어진 데이터를 보내는 등의 철저히 ‘채널’ 역할에 머무르는 일을 해왔다. 하지만 모바일 개발자라고 하면 개발을 모르는 사람들은 뭔가 대단한 것을 만드는줄 안다. 모르면 볼 수 없는 법.
나는 인공지능도 비슷한 관점에서 봤을 때, 내가 인공지능을 모르기에 막연히 ‘대단하다’ 라는 생각은 굳이 할 필요가 없다고 생각했다. 알고리즘이 아무리 뛰어나고, 데이터를 아무리 잘 다룬다고 한들 결국 컴퓨터는 숫자를 가지고 연산을 하는 존재다. 만능이 아니란 말이다.
 

<인간 vs 기계>에서 우리가 말과 글로 표현할 수 있는 지식은 10%에 불과하다고 했다. 나머지 90%는 설명할 수 없는 비정형 데이터다.

 
하지만, 언론에서는 ‘일자리가 없어진다!’ 라며 호들갑을 떨었다.
2017년 1월에 출판 되었으니 아마 본문의 필자들은 2016년에 탈고를 했을 것이다. 2016년에는 1년이 훌쩍 지난 지금보다 훨씬 더 그 영향력이 강했을 터, 본문에 나오는 글 중 꽤 많은 수가 ‘알파고’ 를 언급한다.
 
하지만 어느새 알파고를 지나 ‘머신러닝’ ‘딥러닝’ 따위의 ‘버즈워드’ 가 그 자리를 대신한다. 이러한 속도 때문에 기술지는 종이로 출판되면 안된다는 의견이 개발자들 사이에서 꽤 흔하게 들렸다. 이미 종이로 출판된 것은 죽은 정보이니 그걸 볼 시간에 지금 나오는 내용을 온라인으로 보라는 식이었다.
나 또한 그 의견에 대부분 공감했고, ‘마이크로소프트웨어’ 는 그렇게 휴간이 되었던 것이다.
 
하지만 ‘마이크로소프트웨어’ 편집장의 말 처럼 그럼에도 어떠한 역할을 담당할지도 모르겠다.
온라인에서 다 찾을 수도 있지만, 그럼에도 이 잡지만이 가진 맛이 있었기 때문이다.
 
 

잡지의 맛.

 
지난해 콘텐츠 비즈니스로 창업을 하며, 이러한 콘텐츠를 유심히 지켜봤다.
과연 콘텐츠의 유료화는 불가능한것인지. 영상의 시대에 텍스트 콘텐츠는 적절치 않은 것인지. 언론사는 이제 사라지는 것이며, 큐레이션은 인간의 영역을 벗어나는 것인지.
이러한 흐름의 중심엔 ‘기술’ 이 있었고, 이 ‘기술’ 을 주제로 하는 특히 소프트웨어를 주제로 하는 잡지가 ‘마이크로소프트웨어’ 였으니 이 또한 참 이 잡지의 기구한 운명이다.
세계적인 경영지 HBR 도 예전만큼 콘텐츠 수익을 내지 못해 매일 할인을 하고, 격월호로 전환했다. 잘나가는 미디어 스타트업이었던 버즈피드도 작년 같지 않고, 우리나라 미디어 그룹들도 네이버 앞에서 많이 약해졌다. 하지만, 아마존의 제프 베조스는 워싱턴 포스트를 인수해 IT 회사를 선언한 뒤 다시금 과거의 영광을 되찾았는데, 이러한 미디어 콘텐츠 시장의 격변기에 나는 뭔가 기회가 있을거라 생각한다.
 
‘마이크로소프트웨어’ 는 연 4회 발행하는 계간지로 복간해, 사실상 잡지보다는 ‘책’ 의 성향을 띄게 되지 않았나 싶다. 월간지가 아니니 상대적으로 호흡이 길어지는데, 매주 새로운 라이브러리와 기술이 발표되는 지금엔 개발자들을 위해 ‘코드’ 를 설명하던 기술지로의 포지션이 어울리지 않는다.
결국 ‘마이크로소프트웨어’ 는 거대한 주제에 다양한 조각을 모으는 잡지로 포지셔닝 했고, 이번 인공지능 편을 읽으며 나름의 맛을 느꼈다.
 
그 맛은 숨겨진 맛이라 하겠다.
 
 

인공지능의 적용 범위는?

 
나는 개발자로 일하고 있기에, 구글 TensorFlow 등의 최신 라이브러리나 페이스북의 챗봇 등. 다양한 기술과 적용 사례 등을 쉽게 들을 수 있었다. 때문에 나는 인공지능의 대중적인 이야기들은 ‘꽤 잘 꿰고 있다’ 라고 생각했다.
그리고 이것이 필드의 개발자들이 말하는 종이 콘텐츠의 단점이 되겠다. 책을 돈주고 사서 볼 정도의 관심이라면, 충분히 검색으로 알아볼 수 있다는 것이다. 앞서 말했듯 이 부분에 있어서는 이번 호를 다 읽은 지금도 공감한다. 스스로가 관심과 의지가 있다면 충분히 정보는 널려있다.
 
하지만, 문제는 시간 그리고 내 의지다.
아무리 새로운 것을 계속해서 접하는 개발자로 일한다고 한들, 모든 것을 꿰고 있을 수는 없다. 매일 같이 발표되는 새로운 것들만 지켜본다고 하면 일은 언제하며, 혹 계속 지켜본다고 해도 다 볼 수 없을 정도로 정보가 많다.
때문에 정보에 대한 큐레이션은 여전히 중요하고, ‘마이크로소프트웨어’ 는 그 역할을 한다.
 
이번 호에서 흥미로웠던, 하지만 지금까지 큰 의지가 없었던 영역이 여럿 있었다.
첫째로 인공지능 스피커. 최근 카카오에서 ‘카카오 미니’ 를 출시하며 인공지능 스피커 전쟁이 본격 시작되었다. 본문에는 SK텔레콤의 ‘누구’ 를 가지고 글을 썼는데, 평소 관심은 있었으나 이토록 깊게 찾아 볼 의지와 시간은 없었다.
 

이러한 악조건을 극복하기 위해서는 2개 이상의 마이크를 이용한 전처리가 필수다. 2개의 마이크로 인간과 유사하게 거리와 방향에 대한 정보를 활용하는 것이다. 아마존 에코의 경우 7개의 마이크를 탑재해 방향과 신호 감쇄에 대한 보상을 수행한다고 한다.

 
가령, 인공지능 스피커에 왜 여러개의 마이크가 장착되어야 하는지. 어떠한 프로세스로 명령이 처리되고, 출력되는지. 도대체 왜 이리 잘 못알아 듣는건지 등은 관심은 있으나 일부러 찾아가며 알고 싶진 않았다. 다만, 얕은 관심 덕에 본문의 내용은 무척 흥미롭게 읽었다.
 

예컨대 “김광석의 사랑했지만 틀어줘” 라는 텍스트를 웹에서 수집하려고 해도 수집이 되지 않는다. 웹에 명령을 내리는 글이 거의 없기 때문이다.

 
특히, 아무리 데이터가 많아도 웹 상의 텍스트와 실제 사용되는 말이 달라 수집 자체를 할 수 없다는 것은 굉장히 새로웠다. 이 분야에 종사하는 사람은 늘상 하는 일이니 당연할테지만, 개발자로 일하는 나조차도 조금 범위가 달라지니 무척 생소했다.
 
 
둘째는 게임 스타크래프트의 인공지능 경진대회 였다.
나는 이런 경진대회가 있는지도 몰랐고, 이것에 대한 역사가 꽤 깊으며, 각 국가별로 참여하는 것 조차 새로웠다. 내가 스타크래프트를 별로 좋아하지 않기 때문도 있지만, 게임의 인공지능을 만드는 것은 무척 새로운 이야기였다.
 
셋째는 국방부문 인공지능.
사실 이건 좀 무서웠다. 영화속에서 보던 공격형 드론 등이 이미 기술적으로 구현 가능하고, 실제 여기에 실탄을 넣었다니… 이미 전투기 등이 그러하지만, 이런 드론들이 무장을 하게 된다면 그야말로 엄청난 전쟁이 다가왔다는 것을 증명한다.
언론에는 아마존 등의 물류센터에 물류 로봇과 배송 드론 등이 일하는 것에 포커싱했지, 전쟁 로봇에 대해서는 크게 듣지 못했다. 영화 터미네이터 등을 통해 그 위험성은 인지하고 있지만, 어느새 훅 다가온 현실이 믿기지 않았다.
아마, 기술을 이해하지 못하는 사람들은 더욱 놀랍겠지.
 
넷째는 스마트팩토리.
내 주변에도 스마트팩토리 관련 업무를 진행하는 사람이 있어, 간간히 듣긴 했지만. 스마트팩토리의 기반기술부터 당장 적용하기에 무리가 되는 문제점들. 그리고 효율적으로 적용하기 위한 타협점 등. 굉장히 잘 정제된 정보는 무척이나 놀라웠다.
이는 정말 스스로가 관심도 크지 않았고, 이러한 정보를 일일이 찾아 볼 의지도 없었기에 스마트팩토리와 인공지능을 엮은 정보는 아마도 이런 류의 기획 잡지가 아니고서는 만나기 힘들었을거라 생각한다.
 

“측정할 수 없으면 관리할 수 없다”는 명언처럼 제조 공장들은 비싼 가격과 유선설치 비용 때문에 엄두를 내지 못했던 센싱 포인트를 점차 늘리고 있다.

 
하지만 이 분야로의 가능성을 엿볼 수 있었고, 추후 관련 정보들에 큰 관심이 생겼다. 이렇듯 새로운 정보에 입문할 수 있는 기회 또한 잡지의 맛이 아닐까 싶다.
 
마지막으로 데이터.
데이터 부분은 이미 알고 있었지만 꽤나 다양한 자료를 보여줬기에, 내 시간을 꽤나 벌어주지 않았나 싶다.
 

팀 버너스리는 PDF 등의 바이너리 파일과 같은 낮은 수준의 오픈 데이터, XLS/CSV 등 처럼 어느 정도 정형화된 수준의 오픈데이터, RDF와 같이 표준화 된 형식을 따르는 오픈 데이터 등으로 단계를 나눴다.

 
한국에서 비즈니스를 하는 사람들이 혐오하는 것들 중에는 ‘액티브엑스’ 를 포함해 ‘한글 문서’ 가 있다. 글로벌 시대에 한글 문서는 매우 안타까운 부분이다. 게다가 나는 맥 유저로써 한글 문서가 싫다. 메일로도 열리지 않을 뿐더러, 다운 받아도 뷰어를 깔아야 볼 수 있다.
작년 정부지원사업을 하면서 내 소중한 맥에 윈도우를 깔며 눈물을 머금었다.
 
본문에는 영국과 한국의 공공데이터 파일 형식 비교 그래프가 나오는데, 한국은 무려 17%에 달하는 공공 데이터가 한글 문서다. 이러면서 공공 정보를 활용하라고 떠들고 있으니, 탁상공론이다.
 

한국은 상위 국가에 비해 Readiness 점수가 상당히 높은 반면, Implementation 과 Impact 점수가 낮다. 각 지표의 의미를 따져보면 “한국 정부의 오픈 데이터 추진 의지는 높으나 공공 데이터 관리 체계나 활용성은 부족하다”라고 평가할 수 있다.

 
이러한 데이터 부문의 내용은 내가 관심이 있었지만, 이러한 자료들을 일일이 찾아볼 시간은 없었기에 이러한 잡지의 맛은 꽤나 달콤했다.
 
 

코드는 아쉽다.

 
다 만족 할 수는 없는 법.
기술지의 맛을 살리기 위해서인지, 군데군데 소스가 붙어있었다. 하지만, 개발자의 관점에서 큰 의미없는 코드들이 프린팅 된 것을 보며, 굳이 넣었어야만 했나 싶었다. 딱히 본문을 이해하는데 이득이 없었다.
 
또한, 인공지능이라는 큰 주제를 다루다보니 소주제별 깊이가 달랐다. 때문에 어떤 부분은 매우 깊이 이해할 수 있지만 어떤 부분은 다 읽었는 데도 전혀 이해 할 수 없기도 했다.
이는 다양한 정보를 전달하려는 취지의 양날의 검이라 하겠다.
 
하지만 역시 무난한 가격으로 다소 큰 주제 내의 굵직한 흐름을 훑기에는 나쁘지 않은 선택,
그것이 이 잡지의 맛이 아닐까 싶다.
 
 

[ 인상 깊은 문구 ]


 

  • 즉 우리 개발자들이 일상적으로 하는 코딩이 바로 지식기반형 방법론이다.
  • 결국, 인공지능이 무엇이라고 정의하기 힘든 것은 인간의 지능에 대한 불완전한 이해 때문이다. 우리가 사람의 지능에 대한 완전한 파악이 가능할 때까지 인공지능의 정의도 변화할 수밖에 없다.
  • 지금까지 모든 발전은 전문화된 업무에서 좋은 성과를 보이는 약인공지능 분야에서만 이루어져왔다. 약인공지능은 음성인식, 이미지인식 및 번역과 같이, 구체적이고 잘 정의된 영역에서 개별 작업을 수행한다.
  • 모라벡의 역설 (Moravec’s Paradox, 사람에게 쉬운 것은 로봇에게 어렵고, 사람에게 어려운 것은 로봇에게 쉽다.)
  • 대부분의 인공지능 연구자들은 강인공지능이 수십 년 이후에나 가능하리라고 전망한다.
  • 노동의 양극화는 새로운 양상이다. MIT 경제학자인 데이빗 오터와 그의 동료 데이빗 돈은 일부 고급기술의 일자리와 보다 낮은 기술의 일자리는 유지되면서, 중급 기술의 일자리가 감소하는 직업 양극화 현상에 주목했다. 인공지능이 주로 적용되는 분야가 사무직, 기술 생산직, 서비스직 등 중급 기술의 일자리인 것을 감안한다면 양극화는 더 심화될 것이라고 예상하는 것이 합리적이다.
  • 전 세계 상위 60여명의 자산 총액이 하위 50%의 자산 총액과 같아질 정도로 경제적 불평등이 심화된 상태에서 인공지능은 기울어진 운동장의 경사를 더 크게 할 수도 있다.
  • 저명한 경제학자 케인즈는 1938년 저서 <손주 시대의 경제적 가능성> 에서 100년 뒤에는 주 15시간의 노동으로 생계를 해결하고, 나머지 시간은 예술적인 삶을 살 것이라고 전망했다. 인공지능은 케인즈가 예상했던 것보다 훨씬 높은 수준의 생산을 가능하게 했지만 이를 누리는 삶은 케인즈가 예상한 것에 훨씬 미치지 못하고 있다.
  • 최근 유럽의회에서 제안했던 ‘로봇세’와 국내외에서 활발하게 진행되고 있는 ‘기본소득’ 논의에 주목해야 하는 이유가 바로 여기에 있다. 더 늦기 전에 인공지능과 사람의 ‘협업’ 과 ‘공존’ 의 규칙을 만들어야 한다.
  • 그렇지만 머신러닝은 결정론적인 인과 관계가 아니라 통계를 기반으로 한다. 통계는 결정론과 거리가 멀다.
  • 저명한 언어학자인 촘스키는 머신러닝이 사용하는 통계적 접근을 신랄히 비판했다. 실용적인 수준에서 의미가 있을지 몰라도 과학으로 불릴 수 없다고 폄하했다. 작동방식을 명확하게 설명하는 원리가 없기 때문이다.
  • <인간 vs 기계>에서 우리가 말과 글로 표현할 수 있는 지식은 10%에 불과하다고 했다. 나머지 90%는 설명할 수 없는 비정형 데이터다.
  • 개발자는 누군가 문서로, 이메일로 지라(JIRA)와 같은 이슈트래킹 시스템으로 문제를 정확히 설명해주지 않으면 코딩을 시작할 생각을 하지 않는다. 안 한다기보다 못한다.
  • 최근 들어 차츰 늘어나고 있는 모델 빌더라는 직업군은 어쩌면 디브디에스의 전조일지 모른다. 모델빌더는 업무에 필요한 데이터를 분석하고 적절한 머신러닝 알고리즘을 선택해서 비즈니스 목적에 가장 적합한 머신러닝 모델을 만드는 사람을 일컫는다.
  • 그 시기가 오면 코딩이라는 행위는 빠르게 사라지겠지만, 우리의 직업 자체는 천천히 변할 것이다. 우리는 코딩을 하지 않겠지만, “어떤 기술을 이용해서 주어진 문제를 해결한다”는 업무의 본질을 유지할 것이다.
  • 기술개발자는 단순히 기술만을 개발하는 것이 아니라, 문화를 창조하는 사람이기도 하다.
  • 빌 게이츠가 뛰어난 프로그래밍 실력으로 지금의 자리에 올랐지만, 더욱 중요한 요인은 고비 때마다 법률적 이슈에서 잡았던 승기였다.
  • 빌 게이츠는 우수한 인력이 제일 중요하다는 사실을 강조했다. 대규모 인원보다 소규모 개발팀을 선호했다. 적은 인원이 한계에 도달할 때까지 일해야 한다고 믿었다. 본인도 30시간 연속하여 프로그래밍을 하는 열정을 보였다. 어설프게 일하는 인재를 가장 싫어했다.
  • 최악의 사원을 고용하는 것보다 어중간한 사원을 고용하는 것이 더 최악의 결과를 초래한다. – 빌 게이츠
  • 이러한 악조건을 극복하기 위해서는 2개 이상의 마이크를 이용한 전처리가 필수다. 2개의 마이크로 인간과 유사하게 거리와 방향에 대한 정보를 활용하는 것이다. 아마존 에코의 경우 7개의 마이크를 탑재해 방향과 신호 감쇄에 대한 보상을 수행한다고 한다.
  • 결정엔진은 인공지능 엔진으로부터 생성된 다양한 결과들을 수집해 어떤 형태로 제공하는 게 가장 좋은지를 종합적으로 판단할 수 있어야 한다.
  • 인공지능의 핵심적인 역할 중 하나는 이러한 많은 검색 결과에서 단 하나의 결과만 선택, 제공하는 것이다.
  • 음성인식 기술의 구조는 거의 모든 개발사가 유사하다. 단지 세부 컴포넌트의 최적화 정도에 따라 성능 차이가 있을 뿐이다.
  • 예컨대 “김광석의 사랑했지만 틀어줘” 라는 텍스트를 웹에서 수집하려고 해도 수집이 되지 않는다. 웹에 명령을 내리는 글이 거의 없기 때문이다.
  • 인간의 언어는 명확한 관계로 밝히기에는 너무나도 많은 변이를 가지고 있다. 특히 명확한 문법적 구조가 없어 모든 순서 관계가 전부 허용되는 한글에 적용하기란 특히 어렵다.
  • 특히 한글의 경우 띄어쓰기 단위인 어절을 사용하기보다는 형태소와 어절의 중간 단계를 이용해 모델링을 하는 경우가 많다. 이 경우 단어가 분리돼 연음, 경음화 등 발음 법칙이 적용되지 않을 수 있다.
  • 연결 서비스를 위해서는 이러한 고유명사를 찾는 기술이 필요하다. 예컨대 “오늘부터 우리는 노래 틀어줘”에서 “오늘부터 우리는”이 곡명이라는 것을 알지 못한다면, 사람이 들어도 어떤 의미인지 파악할 수 없을 것이다. 이렇듯 고유명사는 다수의 술어를 포함하고 있는 경우가 많아 분석 자체가 매우 어렵다. 한국어 고유명사 분석에 가장 많이 사용되는 방법은 CRF다. 일종의 그래프 이론으로 주위의 단어간의 관계를 여러 상태에 따라 다양하게 고려할 수 있어 고유명사를 비교적 정확하게 파악할 수 있다.
  • RNN은 열을 순차적 입력하고, 기존에 학습된 중간 layer를 다시 입력으로 넣는 식으로 과거의 정보를 재활용한다.
  • 최근 알파고의 대국에서 드러났듯 딥러닝 학습 인프라로 GPU 서버 컴퓨팅이 주목받고 있다. 딥러닝 학습과 적용에는 가중치 매트릭스를 구하는 데 대규모 연산이 필요하기 때문이다.
  • TTS는 일반적으로 한 음절을 기준으로 데이터베이스 녹음 음성을 합성하기 때문에 음성이 자연스럽지 않다. 반면 USS 방식은 성우 녹음 DB를 유닛 단위로 저장하고, 답변의 맥락을 파악해 가장 근사치의 유닛을 합성한다. 그래서 기존 TTS보다 더 자연스러운 대화가 가능하다.
  • 톰 미첼이란 사람은 머신러닝을 “작업 T를 수행하고 이에 대한 선능을 P로 측정한다고 했을 때, 경험 E를 통해 성능이 개선된다면 이 컴퓨터 프로그램은 학습한다고 할 수 있다”라고 정의했다.
  • 그렇다면 머신러닝과 딥러닝의 차이점은 무엇일까? 바로 특징 추출 방법이다. 머신러닝을 하기 위해서는 특징을 추출해야 하는데, 여기에 LBP, SIFT, SURF 등처럼 사람이 정한 알고리즘이 이용된다. 반면 딥러닝은 특징 추출과 분류기의 학습이 함께 이루어진다.
  • 교착어인 한국어는 ‘사람’, ‘먹다’ 등 용언 혹은 체언에 ‘~은’, ‘~이’ 등 조사나 ‘~었다’, ‘~는구나’ 등 어미를 조합하여 복합적인 단어를 만들기 때문이다. 단순히 띄어쓰기 기반으로 단어를 획득할 수 있는 영어 대상의 기술들을 그대로 적용될 수 없는 이유다.
  • 이러한 보통 문장 속에 중요한 정보가 다수 포함돼 있다. 이런 문서들을 가공해서 유의미한 정보를 추출해 구조화된 형태로 저장해 통계분석할 수 있도록 정렬하는 작업이 근거중심의학이다. 그런 역할을 하는 연구 분야가 텍스트 마이닝이다.
  • 참고로 10억개의 단어 시퀀스(100만개의 유니크 단어)의 데이터셋을 학습하는 데 하루가 걸리지가 않는다.
  • 주요 활용 사례로는 아프리카 TV에서 생방송을 벡터화 시킨 live2vec, 스트리밍 음원 서비스를 하는 스포티파이에서 재생목록으로 노래를 벡터화시킨 song2vec, 행태 기반 광고회사인 크리테오의 meta-pro2vec, 그리고 음식점을 추천하는 오픈테이블에서 음식 리뷰에 적용한 사례 등이 있다.
  • 정리하면 한글의 키워드 추출 방식이 영어보다 추후 분석 작업에 더 큰 영향을 끼침을 확인할 수 있었다.
  • 사람답다는 게 정말 어려웠습니다. AI NPC가 유저의 행동을 따라하면 재미있어 하지 않을까란 생각도 했었지만, 스스로 잘 판단해 행동하는 것과 사람을 닮아 가는 것은 달랐습니다.
  • 하지만 도널드 트럼프의 승리를 정확히 예측했던 구글 트렌드와 인도계 벤처 기업 ‘제닉AI’ 가 개발한 ‘MogIA’라는 인공지능 엔진도 있었다. 인공지능은 주요한 의사결정에서 인간이 간과하는 다양하고 세밀한 요소들을 판단할 수 있다는 것을 증명한 좋은 사례가 됐다.
  • 기존 전장에서는 식별된 일부 제한 요소만 가지고 작전구상을 했다. 앞으로는 강력한 컴퓨팅과 전장의 다양한 데이터 분석을 통해 보다 승리의 가능성이 높은 방책을 수립해야 한다. 인공지능을 활용할 수 있어야 한다.
  • 현재 사법기관에서는 사법적 판단을 받은 보이스피싱 범죄자의 목소리를 채취해 ‘DNA 신원확인 정보 DB’ 처럼 수사기관의 DB에 등록하고 있다.
  • 런던 지하철 지도상의 한 지점에서 다른 지점으로 이동하는 경로를 찾는 순회 문제와 그 중 최단거리를 찾는 문제였다. 기존 방식인 LSTM은 37%의 정확도를 보였다. DNC는 그보다 절반에 불과한 학습 데이터를 사용했음에도 98.8%의 높은 정확도를 기록했다.
  • 실시간 검침이란 아이디어는 이미 오래 전에 나왔지만 비즈니스적으로 무의미했다. 통신모듈과 통신비용이 매우 비쌌기 때문이다. 그러던 것이 이제 와서 부각되는 것은 소물인터넷을 가로막던 장벽이 사라지며 더 큰 가치를 만들 기회가 활짝 열렸기 때문이다.
  • 국가의 GDP는 제조업의 볼륨과 밀접한 상관관계가 있다. 미국, 유럽, 일본 등 선진국들은 최근 경기침체의 원인으로 제조업 성장의 정체를 꼽고 있다.
  • 어느 정도 규모가 큰 플랜트에서는 EMS를 통해 관리 영역을 넓히고 있지만, 대기업 플랜트의 경우 적게는 수만개의 관리 포인트가 존재해 전체를 관리하는 데 어려움을 겪고 있다.
  • 기존까지는 생산 공정의 집적화, 최적화에 집중했다면 이제 네트워크 기술을 통해 단일 공장에서 전국에 걸친 공장을 통합하려는 시도가 늘고 있다.
  • “측정할 수 없으면 관리할 수 없다”는 명언처럼 제조 공장들은 비싼 가격과 유선설치 비용 때문에 엄두를 내지 못했던 센싱 포인트를 점차 늘리고 있다.
  • 구축형은 사업장 특성에 맞게 커스터마이징돼 운영이 편리하지만, 그만큼 표준화에서 벗어나게 되고 확장성이 떨어진다.
  • 하지만 4G LTE를 이용할 경우 전용 게이트웨이를 두면, 상용망과 완벽하게 물리적으로 망분리를 할 수 있어 스마트팩토리 분야에서 클라우드가 다시금 주목받고 있다.
  • 업력이 오래된 제조 공장일수록 신기술 도입 판단 기준은 명확했다. ‘비용 감소’ 아니면 ‘생산성 향상’에 도움이 돼야 하고, 바로 성과를 보여줄 수 있어야 한다는 것이었다.
  • 제조업은 지금까지 독자적으로 모든 공정을 효유로하해 생산성 향상을 도모했다. A~Z까지를 직접하다보니 파괴적 혁신보다는, 단지 작년보다 더 나은 수준의 KPI를 유지하는 데 인력과 비용을 투자하고 있다.
  • 팀 버너스리는 PDF 등의 바이너리 파일과 같은 낮은 수준의 오픈 데이터, XLS/CSV 등 처럼 어느 정도 정형화된 수준의 오픈데이터, RDF와 같이 표준화 된 형식을 따르는 오픈 데이터 등으로 단계를 나눴다.
  • 한국의 경우 CSV나 스프레드시트 형식이 대다수인 데 반해, 영국은 XML 기반의 파일이나 외부 데이터 공유가 큰 비중을 차지하고 있다. 즉, 영국의 경우 데이터의 형식이나 외부 연계를 통한 활용성 측면에서 한국보다 앞서 있다.
  • 한국은 상위 국가에 비해 Readiness 점수가 상당히 높은 반면, Implementation 과 Impact 점수가 낮다. 각 지표의 의미를 따져보면 “한국 정부의 오픈 데이터 추진 의지는 높으나 공공 데이터 관리 체계나 활용성은 부족하다”라고 평가할 수 있다.
  • 영국은 세계적으로 인정받는 오픈 데이터 강국이다.
  • 유럽 전역의 오픈 데이터 약 53만건의 데이터셋을 한 곳에서 조회 할 수 있다. 참고로 우리나라의 공공 데이터 포털은 약 2만건, 영국은 4만건의 데이터셋을 확보하고 있다.