1절 빅데이터의 이해

 

1. 정의

빅데이터란?

- 데이터

- 복잡성 증가로 인한 기존 툴로 다루기 어려운 데이터세트의 집합

- “빅데이터는 일반적인 데이터베이스 소프트웨어로 저장 관리 분석할 수 있는 범위를

초과하는 규모의 데이터다."(McKinsey, 2011)

- “빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고

데이터의 초고속 수집· 발굴· 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다." (IDC, 2011)

- 인재나 조직까지도 빅데이터 개념에 포함

- “빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던

새로운 통찰이나 가치를 추출해 내는 일이다.

나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다."

(Mayer-Schönberger&Cukier, 2013)

 ‘기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식’

 

3V

- 데이터의 양(Volume)

- 데이터 유형과 소스 측면의 다양성 (Variety)

- 데이터 수집과 처리 측면에서 속도(Velocity)

 

빅데이터 정의의 범주 효과

데이터 변화

규모, 형태, 속도

기술 변화

새로운 데이터 처리, 저장, 분석 기술 아키텍처

인재, 조직변화

데이터 사이언티스 같은 새로운 인재 필요, 데이터 중심 조직

기존 방식으로는 얻을 없었던 통찰 가치 창출

사업방식, 시장, 사회, 정부등에서 변화화 혁신 주도

 

2. 출현 배경

새로 등장한 것이 아니라 기존의 데이터, 처리방식, 사람과 조직 차원의 '변화'

→ '패러다임 전환'

 

빅데이터 출현 배경

1) 산업계 : 고객 데이터 축적

- 양질 전환 법칙

- 거대한 가치 창출이 가능할 만큼 충분한 규모 보유 데이터로 숨어있는 가치 발굴

2) 학계 : 거대 데이터 활용 과학 확산

- 인간 게놈 프로젝트 (시간과 비용이 줄어듬)

- 스위스 제네바 대형 강입자충돌기, 나사이 기후시물레이션 등의 슈퍼컴퓨터

기술 아키텍처 통계 도구들의 지속적 발전

3) 관련 기술 발전 : 디지털화, 저장기술, 인터넷보급, 모바일혁명, 클라우드 컴퓨팅

- 아날로그의 디지털화 : 편리성 새선, 동일한 복제품 생산 가능, 비용절감

- 인터넷 발전 : 광고, 양면시장모델, 미디어시장에서 비지니스모델 반영(야후, 구글)

- 사용자 로그 정보 : 사용자의 프로파일링, 아이덴티티로 인해 광고를 매칭 정확도 향상

- 클라우드 컴퓨팅 : 처리 비용을 획기적으로 낮춤, 맵리듀스 활용

- 개별 기업의 고객 데이터 축적 및 활용 증가,  인터넷 확산,저장 기술의 발전과 가격 하락,

   모바일 시대의 도래와 스마트 단말의 보급 클라우드 컴퓨팅 기술 발전

   SNS와 사물네트워크 확산 등

 

ICT(Information and Communications Technologies) 발전과 빅데이터 출현

 

3. 빅데이터 기능

 

1) 산업혁명이 석탄이나

- 자원과 유통의 혁명적 변화, 제조업에서 서비스업까지

2) 21세기의 원류

- 에너지원 = 정보, 생산 향상, 새로운 산업 생성

3) 렌즈

- 현미경 렌즈, 게놈프로젝트

- 구글 'Ngram Viewer'  : 남북전쟁이후 미국 are → is  변화되는 상황을 그래프로 표현

4) 플랫폼

- 공동 활용의 목적으로 구축된 유무형의 구조물,

- OS 플랫폼

- 페이스북

- API(Application Program Interface)

 

4. 빅데이터가 만들어 내는 본직적인 변화

 

1) 사전처리 → 사후처리

- 산업혁명 : 정보의 사전처리 방식, 조립과정에서 사람과 기계간이 역할 조정, 표준화된 문서

- 사후처리 : 데이터를 다양한 방식으로 조합해 숨은 정보를 찾는 방식

- 로그데이터 분석 → 광고활용, 데이터 마이닝 활용

2) 표본조사 → 전수조사

- 표본조사 : 비용, 도구의 걸림돌로 인해 적은 데이터로 풍부한 결과 목표

- 클라우팅 기술 발전에 따라 도구 발전으로 비용이 문제가 되지 않음

- 샘플링이 주지 못하는 패턴이나 정보를 제공 새로운 시스템, 불법 거래 적발 가능

- 표본조사는 활용성 측면에서 융통성이 떨어짐

- 전수조사는 다양한 질문에 다양한 방식으로 재가공 가능, 융통성 유지

3) 질 →

- 회귀분석에서 새로운 변수가 추가되면 설명력 하락, 변수가 무한하면 100 수렴

- 구글 자동 번역 시스템 구축 : 양의 중요성 / 수십억 말뭉치(corpus) 오역까지 수용

- 자료가 많아질수록 양질의 정보가 많아짐, 개의 오류는 대세에 영향을 주지 못함

- 제외되는 사례도 다른 변수에는 정보를 갖고 있기에 대용량의 정보가 많은 가치 추출

4) 인과관계 → 상관관계

- 인과관계 : 이론 기초, 변인 결정후 시험통해 이론적틀에 맞춰 분석, 고비용 모델

- 수십억개의 수학적 모델 분석을 통한 키워드의 상관관계들로 확인 가능

- 상관관계는 빠른 분석이 가능해서 타이밍을 놓칠 일이 없음

- 아비바(Aviva) : 보험회사의 보험가입자의 데이터 활용

- 인과관계도 필요하지만 신속한 의사결정이 필요하면 상관관계로 예측 가능함

 

2절 빅데이터의 가치와 영향

 

1. 빅데이터의 가치

 

사치 산정이 어려운 이유

1) 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발

- 누가 어디서 언제 재활용할지 없음

- 창의적 조합은 기존에 업는 문제를 해결하는데 도움을

- 평소의 가치와 추가 정보 제공까지 수반 되어짐 (상품진열cctv - 범죄활용)

2) 새로운 가치 창출

- '기존에 없던 가치' 창출 : 킨들이 독자분석, 페이스북의 소셜그래프

3) 분석 기술 발전

- 클라우드 분산 컴퓨팅에 따른 저렴한 비용으로 활용도가 높아짐

- 텍스트 마이닝 기법, 데이터가 주식 가치에 반영이 되지 않음

 

2. 빅데이터의 영향

 

빅데이터가 가치를 반들어내는 방식

- 투명성 제고로 연구개발 관리 효율성 제고

- 시물레이션을 통한 수요 포착 주요 변수 탐색으로 경쟁력 강화

- 고객 세분화 맞춤 서비스 제공

- 알고리즘 활용한 의사결정 보조 또는 대체

- 비즈니스 모델과 제품, 서비스 혁신

 

1) 기업 : 혁신, 경쟁력 제고, 생산성 향상

- 신사업발굴, 원가절감, 제품차별과, 기업활동 투명성 제고, 경쟁력

2) 정부 : 환경 탐색, 상황분석, 미래대응

- 사회변화추정하고 재해정보 추출

- 사회관계망 분석, 시스템 다이내믹스, 복잡계이론 미래의제 도출

- 미래 사회에 따른 법제도 거버넌스 시스템, 성장 전략, 안보 정보 제공

3) 개인 : 목적에 따라 활용

- 정치인, 가수 활용

맞춤형 서비스 저렴한 비용, 적시에 필요한 정보 얻음 기회비용 절약

생활 전반의 스마트화

 

3절 비즈니스 모델

 

1. 빅데이터 활용 사례

 

1) 기업

- 구글 검색 : 로그데이터 활용한 기존의 페이지 링크, 차원의 신호 추가 검색결과 개선

- 월마트 : 경쟁력 강화 구매패턴 분석

- 의료부분 개선 : 생산성 향상, 3천억 절감, 왓슨 사용

2) 정부

- 대국민 서비스 개선

- NSA(National Security Agency) : 국가 안전 확보 활동

3) 개인

- 정치인, 가수

 

2. 빅데이터 활용 기본 테크닉

 

1) 연관 규칙 학습 (Association rule learning)

- 계산대의 데이터 활용 : 커피를 구매하는 사람은 탄산 음료를 많이 사는가?

- 어떤 변인들 간에 주목할 만한 상관관계가 있는지

- 상관관계가 높은 상품 진열, 로그 데이터 분석하여 행위자 색출

2) 유형 분석 (Classification tree analysis)

- 사용자는 어떤 특성을 가진 집단에 속하는가

- 새로운 사건을 속하게 범주는 찾아내는 통계적 분류를 위해 훈련용 분류 갖춰야함

- 문서 분류, 조직 나눌 , 수강생 특성에 따라 분류

3) 유전 알고리즘 (Genetic algorithrns)

- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?

- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘 통해 '진화'시킴

- 응급실에 의사 배치, 효율적 차개발위해 원자재와 엔지니어링 결함

4) 기계 학습 (Machine learning) 

- 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶을까?

- 데이터를 통한 학습할 있는 소프트웨어 포함

- 훈련 데이터로부터 학습한 알려진 특성을 활용한 '예측'하는 일에 초첨

- 이메일 스팸 걸러내기, 사용자 기호에 따른 추천 서비스

5) 회귀 분석 (Regression analysis)

- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

- 독립변수를 조작하여 종속변수가 어떻게 변하는지 변인간의 관계 파악

- 만족도에 따른 충성도 영향, 이웃과 규모에 따른 집값의 영향

6) 감정 분석 (Sentiment analysis)

- 새로운 환불 정책에 대한 고객의 평가는 어떤가

- 특정 주제에 대해 말하거나 글을 사람의 감정 분석

- 고객 코멘트, 소셜미디어 의견 바탕으로 고객 원하는 것을 찾아내는

7) 소셜 네트워크 분석 (Social network analysis)

- 특정인과 다른 사람이 몇촌 정도의 관계인가

- 오피니언 리더, 여향력 있는 사람 발견

- 고객들간이 소셜 관계 파악

 

상관관계 발견, 소비자 유형 분류, 보유자원 할당, 적정요금 책정

→ 다양한 비즈니스 모델 개발 (분석 테크닉 + 창의적 재조합)

 

4절 위기 요인과 통제 방안

 

1. 위기요인

 

1) 사생활 침해

원인 :

- M2M 시대에 따른 정보 수집 센서들의 수가 점점 늘어남

- 개인 정보 가치 증가에 따른 사업자가 개인 정보 습득에 많은 자원 투자

- 빅브라더가 사람들의 일상생활 전반을 감시할 있는 기술적 기반

문제 :

- 특정 데이터가 본래 목적 외의 가공되어 활용되면서 사회, 경제적 위험으로 변형

- 익명화 기술의 문제 : 누구인지 밝혀진다.

- 미국의 NSA 17억건의 정보 수집을

2) 책임 원칙 훼손

- 분석 대상이 되는 사람이 예측 알고리즘이 희생양이 가능성

- 경찰관의 컴퓨터 알고리즘 분석에 따라 특정 지역 순찰

- 영화 '마이너리티 리포트' 범죄 예측 프로그램, 잠재적 위협에 따라 책임 묻기

- 어떤 사람이 특정 집단에 속해서 자신 시용도와 무관하고 부당하게 차별 당할 있음

3) 데이터 오용

- 사람들이 필요한 것은 현실에 대한 인식을 바탕에 두고 있음, 사람들 의견 따르지 않음

- 잘못된 지표를 사용함 : 베트남 전쟁사례, 구글 검색 알고리즘에 따른 거래 사이트 퇴출

 

2. 통제방안

 

1) 동의에서 책임으로

- 소비자 프라이버시 보호 3 권고 사항

- 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용(Privacy by Ðesign)

- 기업은 소비자에게 공유 정보 선택 옵션 제공(Simplified Choice for Business and Consumers)

- 소비자에게 수집된 정보 내용 공개 및 접근권 부여 (Greater Transparency)

- 사용자 정보가 가공될 매번 동의가 불가능 하여 '개인정보 사용자의 책임'으로 해결 필요

- 개인 정보 사용 주체가 보다 적극적인 보호 장치 강구 해야함

2) 결과 기반 책임 원칙 고수

- 행동결과를 처벌해야 , 실제 결과에 대해서만 처벌

- 예측 자료에 의한 불이익 당할 가능성 최소화 하는 장치 마련

3) 알고리즘 접근 허용

- 구글 검색 알고리즘의 부당한 적용

- 객관적 인증방안 도입, 알고리즘 부당함 반증할 방법 명시하여 공개

→ '알고리즈미스트'전문가 필요

 

5절 미래의 빅데이터

 

1) 데이터 : 모든 것의 데이터화

- 사물인터넷, 웨어러블 등을 통한 모든 것들이 데이터화

- 창의적으로 재활용되어 가치를 만들어 있음 (편의점 컵을 통한 선거결과예측)

- 기존 기업의 모델 변경 (나이키의 의류, 액서사리 )

2) 기술 : 진화하는 알고리즘, 인공지능

- 구글 검색엔진, 넷플릭스의 추천 알고리즘 : 데이터 증가에 따른 정확도 증가

- 인공신경망 개발, 스스로 학습이 가능한 인공지능 : 필수 불가결한 기술

- IBM의 왓슨 → 이러한 기계적 판단이 어느 선까지 허용되고 통제 있는가

3) 인력 : 데이터 사이언티스트, 알고리즈미스트

- 통찰력, 전달력, 협업 능력을 갖춘 전문 인력

- 데이터 사이언티스트 : 다각적 분석 통해 인사이트 도축, 전략방향제시 활용

- 알고리즈미시트는 사이언티스트가 일로 부당한 피해가 없도록 막기 위해서 필요

- 컴퓨터, 수학, 통계, 비즈니스(도메인) 지식 필요


+ Recent posts