728x90
반응형

빅 데이터라는 말이 너무나 익숙해진 지금 몇년 전에 읽은 책이 생각이 났다.

창업 프로젝트 지원의 당사자로 선택되어 관련 책을 적지 않게 구매해서 읽어보았다.

한번 전쟁에서 승리한 방법은 다시 사용하면 안된다.

변화무쌍한 현실에 맞게 형태를 변용해야 한다. 

손자병법의 '허실편'에 나오는 내용으로 오바마는 소셜 네트워크를 활용해 롬니와 맞서서 결국 재선에 성공했다.

이것이 빅 데이터이다.

 

아직까지 소셜네트워크 서비스의 대세는 페이스북, 인스타그램, 핀터레스트, 텀블러, 링크드인이다. 트위터가 있지만 한국에서는 유명무실해지고 있는 상태로 보여진다.

 

2012년 오바마 선거운동본부은 아마존 웹 서비스와 사용계약에 서명하고 선거와 관련된 모든 IT활동을 아마존 웹 서비스와 클라우드 센터를 기반으로 이용하였다고 한다. 엄청난 데이터가 넘쳐다고 있는 세상이다.

 

빅데이터의 3가지 특성은 바로 3V로 규모 (Volume), 다양성(Variety), 속도(Veloctiy)다. 인류는 201년에만 2조 7천억 기가바이트의 데이터를 생성했으며 구조적 질의 언어인 SQL대신 비구조적 언어인 NoSQL(No Structured Quary Language)의 검색방법이 도입되고 1초에 수억개 이상이 정보가 흘러들어오고 있다고 한다.

 

SKT의 상품을 만드는 고객자문단 활동을 하면서 느낀점은 모든 서비스가 '세분화 + 타겟팅' 기법인 세그마케팅이 주류가 되고 있다는 점이다. 원래 이런 기법이 가장 먼저 도입된 대표적인 산업은 금융업계와 우편광고 업계이다.

 

기업 = 정당

상품 = 후보 + 정책

소비자 = 유권자

화폐 = 표

시장점유율 = 의회 의석점유율

 

조금 특이한 연구결과가 나온것이 있다. 페이스북의 '좋아요'이력을 이용하면 개인 신상과 취향을 파악할 수 있는 알고리즘을 케임브리지대학 연구팀이 개발했다고 한다. IQ가 높은 사람이 좋아하는 영화는 '대부', IQ가 낮은 사람은 '할리 데이비슨'을 좋아한다고 구체적으로 명시했다고 하는데..난..두카티를 좋아해서 다행히 IQ가 낮은것을 벗어난건가?

 

사일로 효과 : 정보를 공유하지 않으려는 부서 이기주의는 기업에서는 더욱 자주 일어난다. 이는 사일로 효과로 사일로는 농촌에서 사료나 곡물을 따로따로 높이 쌓아두는 원통형 건물을 말한다.

 

개인정보의 수집과 제3자 제공에 관한 규제는 옵트인과 옵트아웃이 있는데 옵트인은 개인이 동의를 해야만 개인정보를 사용할 수 있는 방식이며 옵트아운은 개인의 동의가 없어도 되지만 정보 당사자가 요구하면 사용할 수 없는 방식이다. 카드사 패널활동을 하면서 옵트인 방식을 택했던 한국의 개인정보 보호를 요즘 제대로 실현하기 시작했다는 느낌이다.

 

한국의 경우 직접선거를 통해 대통령을 뽑지만 미국의 대통령 선거는 간접선거로 총 538명의 선거인단 (electoral college)를 주별로 뽑고 이들 주별 선거인단이 대통령을 선출하는 방식으로 연방국가의 성격을 제대로 반영하고 있다. 인구수에 비례해 국회의원의 수를 정해놓은것과 비슷하게 미국 선거인단의 수는 인구에 비례한다. 켈리포니아 주는 55명, 텍사스 주는 38명이지만 와이오밍의 선거인단은 3명에 불과하다. 프라이머리 선거와 코커스 선거는 모두 각 주의 정당 당원 및 지지자들이 직접 참여하여 자기 정당의 예비후보로 출마한 사람들 중에서 대통령 후보를 선출하는 당내 경선 제도이다. 코커스는 당원 및 지지자들이 한자리에 모여 후보자들에 대한 토론회를 가진 후 표결을 하는 방식이며 프라이머리는 당원 및 지지자들이 후보 선출일에 편한 시간을 골라 투표소를 방문하여 자신이 지지하는 후보에게 표를 던지는 것을 말한다.

 

 

나도 포탈의 클라우드 서비스를 이용하지만 클라우드의 포문을 연것은 바로 아마존으로 2008년 E2C(Elastic Computing cloud)라는 클라우드 컴퓨팅 센터를 운영했는데 IT자원을 '신축적'으로 제공하고 있다. 이에 반해 하둡이란 대용량 데이터 처리 시스템으로 HDFS(Hadoop Distributive File System)에서는 하나의 파일을 NTFS에 비해 1,000배나 큰 64메가바이트 단위로 나누어서 관리한다.

 

즉 하둡은 대용량 분산 파일 시스템 (HDFS)와 맵리듀스(MapReduce, 분산 데이터 처리)로 구성되는 대용량 데이터 처리 시스템이다. 빅데이터와 하둡은 연결될 수 밖에 없는데 하드웨어가 고장나더라도 운영되며, 소프트웨어보다 데이터를 중심으로 작업하며 하둡은 확장성이 커서 한번에 다룰 수 있는 파일의 양이 매우 많다. 마지막으로 하둡은 이식성 및 호환성이 뛰어난 시스템이다.

 

 

 

728x90
반응형
Posted by 느린세상걷기
: