제 1절 빅데이터의 이해
1. 정의
빅데이터란?
- 큰 데이터
- 복잡성 증가로 인한 기존 툴로 다루기 어려운 데이터세트의 집합
- “빅데이터는 일반적인 데이터베이스 소프트웨어로 저장 관리 분석할 수 있는 범위를
초과하는 규모의 데이터다."(McKinsey, 2011)
- “빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고
데이터의 초고속 수집· 발굴· 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다." (IDC, 2011)
- 인재나 조직까지도 빅데이터 개념에 포함
- “빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던
새로운 통찰이나 가치를 추출해 내는 일이다.
나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다."
(Mayer-Schönberger&Cukier, 2013)
→ ‘기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식’
3V
- 데이터의 양(Volume)
- 데이터 유형과 소스 측면의 다양성 (Variety)
- 데이터 수집과 처리 측면에서 속도(Velocity)
빅데이터 정의의 범주 및 효과
데이터 변화 |
규모, 형태, 속도 |
기술 변화 |
새로운 데이터 처리, 저장, 분석 기술 및 아키텍처 |
인재, 조직변화 |
데이터 사이언티스 같은 새로운 인재 필요, 데이터 중심 조직 |
→ 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출
→ 사업방식, 시장, 사회, 정부등에서 변화화 혁신 주도
2. 출현 배경
새로 등장한 것이 아니라 기존의 데이터, 처리방식, 사람과 조직 차원의 '변화'
→ '패러다임 전환'
빅데이터 출현 배경
1) 산업계 : 고객 데이터 축적
- 양질 전환 법칙
- 거대한 가치 창출이 가능할 만큼 충분한 규모 → 보유 데이터로 숨어있는 가치 발굴
2) 학계 : 거대 데이터 활용 과학 확산
- 인간 게놈 프로젝트 (시간과 비용이 줄어듬)
- 스위스 제네바 대형 강입자충돌기, 나사이 기후시물레이션 등의 슈퍼컴퓨터
→ 기술 아키텍처 및 통계 도구들의 지속적 발전
3) 관련 기술 발전 : 디지털화, 저장기술, 인터넷보급, 모바일혁명, 클라우드 컴퓨팅
- 아날로그의 디지털화 : 편리성 새선, 동일한 복제품 생산 가능, 비용절감
- 인터넷 발전 : 광고, 양면시장모델, 미디어시장에서 비지니스모델 반영(야후, 구글)
- 사용자 로그 정보 : 사용자의 프로파일링, 아이덴티티로 인해 광고를 매칭 정확도 향상
- 클라우드 컴퓨팅 : 처리 비용을 획기적으로 낮춤, 맵리듀스 활용
- 개별 기업의 고객 데이터 축적 및 활용 증가, 인터넷 확산,저장 기술의 발전과 가격 하락,
모바일 시대의 도래와 스마트 단말의 보급 클라우드 컴퓨팅 기술 발전
SNS와 사물네트워크 확산 등
ICT(Information and Communications Technologies) 발전과 빅데이터 출현
3. 빅데이터 기능
1) 산업혁명이 석탄이나 철
- 자원과 유통의 혁명적 변화, 제조업에서 서비스업까지
2) 21세기의 원류
- 에너지원 = 정보, 생산 향상, 새로운 산업 생성
3) 렌즈
- 현미경 렌즈, 게놈프로젝트
- 구글 'Ngram Viewer' : 남북전쟁이후 미국 are → is 로 변화되는 상황을 그래프로 표현
4) 플랫폼
- 공동 활용의 목적으로 구축된 유무형의 구조물,
- OS 플랫폼
- 페이스북
- API(Application Program Interface)
4. 빅데이터가 만들어 내는 본직적인 변화
1) 사전처리 → 사후처리
- 산업혁명 : 정보의 사전처리 방식, 조립과정에서 사람과 기계간이 역할 조정, 표준화된 문서
- 사후처리 : 데이터를 다양한 방식으로 조합해 숨은 정보를 찾는 방식
- 로그데이터 분석 → 광고활용, 데이터 마이닝 활용
2) 표본조사 → 전수조사
- 표본조사 : 비용, 도구의 걸림돌로 인해 적은 데이터로 풍부한 결과 목표
- 클라우팅 기술 발전에 따라 도구 발전으로 비용이 문제가 되지 않음
- 샘플링이 주지 못하는 패턴이나 정보를 제공 → 새로운 시스템, 불법 거래 적발 가능
- 표본조사는 활용성 측면에서 융통성이 떨어짐
- 전수조사는 다양한 질문에 다양한 방식으로 재가공 가능, 융통성 유지
3) 질 → 양
- 회귀분석에서 새로운 변수가 추가되면 설명력 하락, 변수가 무한하면 100에 수렴
- 구글 자동 번역 시스템 구축 : 양의 중요성 / 수십억 말뭉치(corpus) 오역까지 수용
- 자료가 많아질수록 양질의 정보가 많아짐, 몇 개의 오류는 대세에 영향을 주지 못함
- 제외되는 사례도 다른 변수에는 정보를 갖고 있기에 대용량의 정보가 더 많은 가치 추출
4) 인과관계 → 상관관계
- 인과관계 : 이론 기초, 변인 결정후 시험통해 이론적틀에 맞춰 분석, 고비용 모델
- 수십억개의 수학적 모델 분석을 통한 키워드의 상관관계들로 확인 가능
- 상관관계는 빠른 분석이 가능해서 타이밍을 놓칠 일이 없음
- 아비바(Aviva) : 보험회사의 보험가입자의 데이터 활용
- 인과관계도 필요하지만 신속한 의사결정이 필요하면 상관관계로 예측 가능함
제 2절 빅데이터의 가치와 영향
1. 빅데이터의 가치
사치 산정이 어려운 이유
1) 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발
- 누가 어디서 언제 재활용할지 알 수 없음
- 창의적 조합은 기존에 풀 수 업는 문제를 해결하는데 도움을 줌
- 평소의 가치와 추가 정보 제공까지 수반 되어짐 (상품진열cctv - 범죄활용)
2) 새로운 가치 창출
- '기존에 없던 가치' 창출 : 킨들이 독자분석, 페이스북의 소셜그래프
3) 분석 기술 발전
- 클라우드 분산 컴퓨팅에 따른 저렴한 비용으로 활용도가 높아짐
- 텍스트 마이닝 기법, 데이터가 주식 가치에 반영이 되지 않음
2. 빅데이터의 영향
빅데이터가 가치를 반들어내는 방식
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시물레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘 활용한 의사결정 보조 또는 대체
- 비즈니스 모델과 제품, 서비스 혁신
1) 기업 : 혁신, 경쟁력 제고, 생산성 향상
- 신사업발굴, 원가절감, 제품차별과, 기업활동 투명성 제고, 경쟁력
2) 정부 : 환경 탐색, 상황분석, 미래대응
- 사회변화추정하고 재해정보 추출
- 사회관계망 분석, 시스템 다이내믹스, 복잡계이론 → 미래의제 도출
- 미래 사회에 따른 법제도 및 거버넌스 시스템, 성장 전략, 안보 정보 제공
3) 개인 : 목적에 따라 활용
- 정치인, 가수 등 활용
→ 맞춤형 서비스 저렴한 비용, 적시에 필요한 정보 얻음 기회비용 절약
→ 생활 전반의 스마트화
제 3절 비즈니스 모델
1. 빅데이터 활용 사례
1) 기업
- 구글 검색 : 로그데이터 활용한 기존의 페이지 링크, 차원의 신호 추가 검색결과 개선
- 월마트 : 경쟁력 강화 구매패턴 분석
- 의료부분 개선 : 생산성 향상, 3천억 절감, 왓슨 사용
2) 정부
- 대국민 서비스 개선
- NSA(National Security Agency) : 국가 안전 확보 활동
3) 개인
- 정치인, 가수
2. 빅데이터 활용 기본 테크닉
1) 연관 규칙 학습 (Association rule learning)
- 계산대의 데이터 활용 : 커피를 구매하는 사람은 탄산 음료를 더 많이 사는가?
- 어떤 변인들 간에 주목할 만한 상관관계가 있는지
- 상관관계가 높은 상품 진열, 로그 데이터 분석하여 행위자 색출 등
2) 유형 분석 (Classification tree analysis)
- 이 사용자는 어떤 특성을 가진 집단에 속하는가
- 새로운 사건을 속하게 될 범주는 찾아내는 통계적 분류를 위해 훈련용 분류 갖춰야함
- 문서 분류, 조직 나눌 때, 수강생 특성에 따라 분류
3) 유전 알고리즘 (Genetic algorithrns)
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘 통해 '진화'시킴
- 응급실에 의사 배치, 효율적 차개발위해 원자재와 엔지니어링 결함 등
4) 기계 학습 (Machine learning)
- 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶을까?
- 데이터를 통한 학습할 수 있는 소프트웨어 포함
- 훈련 데이터로부터 학습한 알려진 특성을 활용한 '예측'하는 일에 초첨
- 이메일 스팸 걸러내기, 사용자 기호에 따른 추천 서비스
5) 회귀 분석 (Regression analysis)
- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 독립변수를 조작하여 종속변수가 어떻게 변하는지 두 변인간의 관계 파악
- 만족도에 따른 충성도 영향, 이웃과 규모에 따른 집값의 영향
6) 감정 분석 (Sentiment analysis)
- 새로운 환불 정책에 대한 고객의 평가는 어떤가
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정 분석
- 고객 코멘트, 소셜미디어 의견 바탕으로 고객 원하는 것을 찾아내는 것
7) 소셜 네트워크 분석 (Social network analysis)
- 특정인과 다른 사람이 몇촌 정도의 관계인가
- 오피니언 리더, 여향력 있는 사람 발견
- 고객들간이 소셜 관계 파악
→ 상관관계 발견, 소비자 유형 분류, 보유자원 할당, 적정요금 책정
→ 다양한 비즈니스 모델 개발 (분석 테크닉 + 창의적 재조합)
제 4절 위기 요인과 통제 방안
1. 위기요인
1) 사생활 침해
원인 :
- M2M 시대에 따른 정보 수집 센서들의 수가 점점 늘어남
- 개인 정보 가치 증가에 따른 사업자가 개인 정보 습득에 많은 자원 투자
- 빅브라더가 사람들의 일상생활 전반을 감시할 수 있는 기술적 기반
문제 :
- 특정 데이터가 본래 목적 외의 가공되어 활용되면서 사회, 경제적 위험으로 변형
- 익명화 기술의 문제 : 누구인지 밝혀진다.
- 미국의 NSA가 17억건의 정보 수집을 함
2) 책임 원칙 훼손
- 분석 대상이 되는 사람이 예측 알고리즘이 희생양이 될 가능성
- 경찰관의 컴퓨터 알고리즘 분석에 따라 특정 지역 순찰
- 영화 '마이너리티 리포트' 범죄 예측 프로그램, 잠재적 위협에 따라 책임 묻기
- 어떤 사람이 특정 집단에 속해서 자신 시용도와 무관하고 부당하게 차별 당할 수 있음
3) 데이터 오용
- 사람들이 필요한 것은 현실에 대한 인식을 바탕에 두고 있음, 사람들 의견 따르지 않음
- 잘못된 지표를 사용함 : 베트남 전쟁사례, 구글 검색 알고리즘에 따른 거래 사이트 퇴출
2. 통제방안
1) 동의에서 책임으로
- 소비자 프라이버시 보호 3대 권고 사항
- 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용(Privacy by Ðesign)
- 기업은 소비자에게 공유 정보 선택 옵션 제공(Simplified Choice for Business and Consumers)
- 소비자에게 수집된 정보 내용 공개 및 접근권 부여 (Greater Transparency)
- 사용자 정보가 가공될 때 매번 동의가 불가능 하여 '개인정보 사용자의 책임'으로 해결 필요
- 개인 정보 사용 주체가 보다 적극적인 보호 장치 강구 해야함
2) 결과 기반 책임 원칙 고수
- 행동결과를 처벌해야 함, 실제 결과에 대해서만 처벌
- 예측 자료에 의한 불이익 당할 가능성 최소화 하는 장치 마련
3) 알고리즘 접근 허용
- 구글 검색 알고리즘의 부당한 적용
- 객관적 인증방안 도입, 알고리즘 부당함 반증할 방법 명시하여 공개
→ '알고리즈미스트'전문가 필요
제 5절 미래의 빅데이터
1) 데이터 : 모든 것의 데이터화
- 사물인터넷, 웨어러블 등을 통한 모든 것들이 데이터화
- 창의적으로 재활용되어 가치를 만들어 낼 수 있음 (편의점 컵을 통한 선거결과예측)
- 기존 기업의 모델 변경 (나이키의 의류, 액서사리 등)
2) 기술 : 진화하는 알고리즘, 인공지능
- 구글 검색엔진, 넷플릭스의 추천 알고리즘 : 데이터 양 증가에 따른 정확도 증가
- 인공신경망 개발, 스스로 학습이 가능한 인공지능 : 필수 불가결한 기술
- IBM의 왓슨 → 이러한 기계적 판단이 어느 선까지 허용되고 통제 될 수 있는가
3) 인력 : 데이터 사이언티스트, 알고리즈미스트
- 통찰력, 전달력, 협업 능력을 갖춘 전문 인력
- 데이터 사이언티스트 : 다각적 분석 통해 인사이트 도축, 전략방향제시 및 활용
- 알고리즈미시트는 사이언티스트가 한 일로 부당한 피해가 없도록 막기 위해서 필요
- 컴퓨터, 수학, 통계, 비즈니스(도메인) 지식 필요
'자격증 공방 > ADSP' 카테고리의 다른 글
4-1 R 기초와 데이터 마트 (0) | 2018.08.27 |
---|---|
3-2 분석 마스터 플랜 (0) | 2018.08.22 |
3-1 데이터 분석 기획의 이해 (0) | 2018.08.22 |
1-3 가치창조를 위한 데이터과학과 전략 인사이트 (0) | 2018.08.22 |
1-1 데이터의 이해 (1) | 2018.08.22 |