1절 빅데이터 분석과 전략 인사이트

 

 

1. 빅데이터 열풍과 회의론

- 거품현상, 빅데이터도 시간이 지나면 2.0 소셜 같은 때의 유행처럼 잊혀질 것이다.

- 2013 말을 기점으로 주춤해 지며 대중의 관점이 식어감

- 고객관계관리(CRM) 통해 경험한 부정적 학습효과 : 거액 하드웨어 투자효과 거두지 못함

- 기존의 분석 프로젝트를 빅데이터로 과대포장 : 신뢰성 의심, 개념적 혼란, 기반이 흔들림

- 성과 창출이 관건이나 쉽지 않기 때문에 근본적인 어려움을 피해나가자는 얄팍한 유혹이 문제

 

2. 싸이월드는 페이스북이 되지 못했나?

- 분석에 기초한 전략적 통찰력 부족

- 데이터분석 기반 경영문화의 부재, 직관에 근거한 의사결정

- 데이터 분석에 기초해 전략적 통찰 얻고 효과적인 의사결정 내리고 주체적인 성과내는 체계가 없음

- vs. 구글, 링크드인, 페이스북 : 데이터 분석에 따른 내부 의사결정에 결정적 정보 제공

 

• 기존 관행을 그냥 따를 뿐 중요한 시도를 하지 않는다

• 경영진의 의사결정은 정확성이나 공정한 분석을 필요로 하지 않으며 오히려 정반대로 직관적 결정을 귀한 재능으로 칭송한다. 그렇지 못한 CEO는 똑똑하지만 직관력 이 떨어지는 것으로 여겨진다.

• 분석적 실험을 갈망하거 나 능숙하게 해내는 사람이 거의 없어, 적절한 방법조차 제대로 익히지 못한 사람들에게 분석 업무가 주어진다.

• 사람들은 아이디어 자체보다는 아이디어를 낸 사람이 누구인지 관심을 두는 경향이 있

 

- OLAP 인프라는 있었지만 경영진의 직관력은 보조하거나 상황 확인을 위한 협소한 문제에 집중

- 전략적인 분석은 치열한 시장에서 기업 생존을 좌우할 정도

- 핵심고객이 불만족 상황, 핵심 고객가치는 대변화를 요구하였지만 실패

- 링크드인 '당신이 수도 있는 사람들'

 

3. 빅데이터 분석, 'Big' 핵심 아니다.

- 데이터를 보유하는 관심은 과유불급이고 혼란을 야기할 있음

- 데이터에 기초한 의사결정이 필요

- 양보다 유형의 다양성 관련 : 잠재적 보상은 다양항 소스와 신종 소스를 분석할 있는 능력, 양이 아님

- 어떤 기각과 통찰을 얻을 있느냐의 문제, 비용이 아니라 분석적 방법과 성과에 대한 이해 부족

 

4. 전략적 통찰이 없는 분석의 함정

- 기업의 양질의 데이터 기반을 구축하면 경영사는 나은 의사결정을 내리는데 관심의 초점을 옮긴다.

- 분석 활용과 사업성 사이의 상관관계, 5 이상 차이남


- 분석적 통찰력을 갖춘 응답을 통해 분석 내재화의 어려움 파악 가능

- 일차원적이고 부분적인 분석만 하면 전략적 통찰이 없는 분석에 빠질 있음

아메리카 항공 : 복잡한 최적화는 오히려 비즈니스에 마이너스, 쓸모없는 저가격 비즈니스 모델 활용

사우스웨스트 항공 : 매우 단순한 모델, 단일기종활용을 통한 비용, 복잡성 줄임

단순히 분석을 많이 사용 것은 경쟁 우위가 아님, 어디에 포커스를 두어야 하는지 확인

 

5. 일차적인 분석과 전략 도출 위한 가치 기반 분석


- 일차원분석은 업계동향을 알고 경쟁사들의 활동을 있음, 내부문제에 포커스

 

전략적 인사이트

- 가치 기반을 분석, 사업과 트렌드에 그림 필요

- 인구통계학적 변화, 경제사회 트렌드, 고객니즈변화, 대변화 예측 : 폭넓게 확인 필요

- 분석은 중요한 기회 발굴, 경영진의 지원, 강력한 모멘텀을 만들 있음


 

2절 전략 인사이트 도출을 위해 필요한 역량

 

1. 데이터 사이언스의 의미와 역할

- 데이터로 부터 의미있는 정보를 추출해내는 학문

- 정형, 비정향을 막론하고 다양한 데이터 대상으로 효과적인 구현 전달하는 포괄적 개념

- 전략적 통찰을 추구하고 비즈니스 핵심 이슈에 답하고 사업의 성과를 견인

Ex) 링크드인 : 당신이 수도 있는 사람들 : 삼각관계 원리

 

2. 데이터 사이언스의 구성 요소

- IT 영역 + 분석적(Analytics) 영역 + 비즈니스 컨설팅(비즈니스 분석) 영역

- 깔끔한 패턴이나 통찰력 있는 해결책, 비즈니스가 나아갈 방향 제시

- 데이터 사이언티스트가 갖춰야할 역량

- 강력한 호기심

- 하드스킬 : 분석 기술 관련

- 소프트 스킬 : 분석, 전달, 협력

 

3. 데이터 사이언스 : 과학과 인문의 교차로

- 진정한 차별화는 전략적 통찰과 관련된 소프트 스킬

- 통찰력 있는 분석 = 직관, 전략, 경영 프레임워크, 경험 그림을 그릴 있어야함

 

4. 전략적 통찰력과 인문학의 부할

사회경제적 변화

1) 단순세계화에서 복잡한 세계화로의 변화 : 디버전스의 동역학이 작용

2) 비즈니스의 중심이 제품생산에서 서비스로 이동 : 고객과의 인터페이스

3) 경제와 산업의 논리가 생산에서 시장창조로 변경 : 새로운 현지화, 암묵지(무형자산) 중요

 

5. 데이터 사이언티스트에 요구되는 인문학적 사고의 특성과 역할

- 비판 : 인문학의 정수, 익숙한 것을 불편하게 기존의 상식을 뒤집은 곳에서 출발


- 번째 차원은 단순히 정보를 활용한다고 있는 수준 : 패턴 파악

- 번째 차원은 통찰력을 제시하는 단계 : 핵심적인 문제 파악

정량 분석(데이터과학) + 인문학적 통찰에 따른 합리적 추론 + 강한 호기심

 

6. 데이터 분석 모델링에서 인문학적 통찰력의 정용 사례

- 금융업 '신용리스크 모델' : 벤치마킹 모델이 없어지고 새로운 현실에 맞는 모델이 필요해짐

- 인간을 바라보는 관점 : 어떤 관점에서 어떤 데이터가 필요하고 어떤 기술을 활용해야 하나

1) 성향적 관점

2) 행동적 관점(신용 행동을 근거로 판단)

3) 상황적 관점(깨진 유리창의 법칙) - 주위에 환자가 많은 분들에게 암보험 판매

- 인문학은 고정된 사고방식에서 벗어나 혁신 생각하고 창의성을 토대로 새로운 가치 창출 원천

 

3절 빅데이터 그리고 데이터 사이언스의 미래

 

1. 빅데이터의 시대

- 회사 상품 광고 모델 결정, 선거 결과 예측, 주식 선별  활용

- 비용절감, 시간절약, 매출증대, 고객서비스향상, 신규비즈니스 창출, 내부 의사결정 지원

 

2. 빅데이터 회의론을 넘어 : 가치 패러다임의 변화

- 변화의 물결, 예측하지 못했던 전환이나 위기에 빨리 적응 있는 능력

- 세상의 변화를 읽고, 숨은 뜻과 흐름, 세상이 어떤 방향으로 가는지 알아내는 작업 필요

- '가치 패러다임' : 특정기간 지배적으로 작용하는 부의 원천

1) 디지털화 : 빌게이츠의 오피스 프로그램

2) 연결 : 구글의 검색, 네이버, 고리의 무한 증대, 사물인터넷의 성숙

3) 에이전시 : 복잡한 연결을 얼마나 효과적이고 믿을 만하게 관리해주는가

 

3. 데이터 사이언스의 한계와 인문학

- 모든 분석은 가정에 근거, 실제 외부 요인은 계속해서 변화함, 수집된 데이터 내에서 정확할

- 데이터 분석의 미완벽성, 인문학자 처럼 의구심을 가지고, 불일치를 고찰하고, 위험을 살펴야함


'자격증 공방 > ADSP' 카테고리의 다른 글

4-1 R 기초와 데이터 마트  (0) 2018.08.27
3-2 분석 마스터 플랜  (0) 2018.08.22
3-1 데이터 분석 기획의 이해  (0) 2018.08.22
1-2 데이터의 가치와 미래  (0) 2018.08.22
1-1 데이터의 이해  (1) 2018.08.22

1절 빅데이터의 이해

 

1. 정의

빅데이터란?

- 데이터

- 복잡성 증가로 인한 기존 툴로 다루기 어려운 데이터세트의 집합

- “빅데이터는 일반적인 데이터베이스 소프트웨어로 저장 관리 분석할 수 있는 범위를

초과하는 규모의 데이터다."(McKinsey, 2011)

- “빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고

데이터의 초고속 수집· 발굴· 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다." (IDC, 2011)

- 인재나 조직까지도 빅데이터 개념에 포함

- “빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던

새로운 통찰이나 가치를 추출해 내는 일이다.

나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다."

(Mayer-Schönberger&Cukier, 2013)

 ‘기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식’

 

3V

- 데이터의 양(Volume)

- 데이터 유형과 소스 측면의 다양성 (Variety)

- 데이터 수집과 처리 측면에서 속도(Velocity)

 

빅데이터 정의의 범주 효과

데이터 변화

규모, 형태, 속도

기술 변화

새로운 데이터 처리, 저장, 분석 기술 아키텍처

인재, 조직변화

데이터 사이언티스 같은 새로운 인재 필요, 데이터 중심 조직

기존 방식으로는 얻을 없었던 통찰 가치 창출

사업방식, 시장, 사회, 정부등에서 변화화 혁신 주도

 

2. 출현 배경

새로 등장한 것이 아니라 기존의 데이터, 처리방식, 사람과 조직 차원의 '변화'

→ '패러다임 전환'

 

빅데이터 출현 배경

1) 산업계 : 고객 데이터 축적

- 양질 전환 법칙

- 거대한 가치 창출이 가능할 만큼 충분한 규모 보유 데이터로 숨어있는 가치 발굴

2) 학계 : 거대 데이터 활용 과학 확산

- 인간 게놈 프로젝트 (시간과 비용이 줄어듬)

- 스위스 제네바 대형 강입자충돌기, 나사이 기후시물레이션 등의 슈퍼컴퓨터

기술 아키텍처 통계 도구들의 지속적 발전

3) 관련 기술 발전 : 디지털화, 저장기술, 인터넷보급, 모바일혁명, 클라우드 컴퓨팅

- 아날로그의 디지털화 : 편리성 새선, 동일한 복제품 생산 가능, 비용절감

- 인터넷 발전 : 광고, 양면시장모델, 미디어시장에서 비지니스모델 반영(야후, 구글)

- 사용자 로그 정보 : 사용자의 프로파일링, 아이덴티티로 인해 광고를 매칭 정확도 향상

- 클라우드 컴퓨팅 : 처리 비용을 획기적으로 낮춤, 맵리듀스 활용

- 개별 기업의 고객 데이터 축적 및 활용 증가,  인터넷 확산,저장 기술의 발전과 가격 하락,

   모바일 시대의 도래와 스마트 단말의 보급 클라우드 컴퓨팅 기술 발전

   SNS와 사물네트워크 확산 등

 

ICT(Information and Communications Technologies) 발전과 빅데이터 출현

 

3. 빅데이터 기능

 

1) 산업혁명이 석탄이나

- 자원과 유통의 혁명적 변화, 제조업에서 서비스업까지

2) 21세기의 원류

- 에너지원 = 정보, 생산 향상, 새로운 산업 생성

3) 렌즈

- 현미경 렌즈, 게놈프로젝트

- 구글 'Ngram Viewer'  : 남북전쟁이후 미국 are → is  변화되는 상황을 그래프로 표현

4) 플랫폼

- 공동 활용의 목적으로 구축된 유무형의 구조물,

- OS 플랫폼

- 페이스북

- API(Application Program Interface)

 

4. 빅데이터가 만들어 내는 본직적인 변화

 

1) 사전처리 → 사후처리

- 산업혁명 : 정보의 사전처리 방식, 조립과정에서 사람과 기계간이 역할 조정, 표준화된 문서

- 사후처리 : 데이터를 다양한 방식으로 조합해 숨은 정보를 찾는 방식

- 로그데이터 분석 → 광고활용, 데이터 마이닝 활용

2) 표본조사 → 전수조사

- 표본조사 : 비용, 도구의 걸림돌로 인해 적은 데이터로 풍부한 결과 목표

- 클라우팅 기술 발전에 따라 도구 발전으로 비용이 문제가 되지 않음

- 샘플링이 주지 못하는 패턴이나 정보를 제공 새로운 시스템, 불법 거래 적발 가능

- 표본조사는 활용성 측면에서 융통성이 떨어짐

- 전수조사는 다양한 질문에 다양한 방식으로 재가공 가능, 융통성 유지

3) 질 →

- 회귀분석에서 새로운 변수가 추가되면 설명력 하락, 변수가 무한하면 100 수렴

- 구글 자동 번역 시스템 구축 : 양의 중요성 / 수십억 말뭉치(corpus) 오역까지 수용

- 자료가 많아질수록 양질의 정보가 많아짐, 개의 오류는 대세에 영향을 주지 못함

- 제외되는 사례도 다른 변수에는 정보를 갖고 있기에 대용량의 정보가 많은 가치 추출

4) 인과관계 → 상관관계

- 인과관계 : 이론 기초, 변인 결정후 시험통해 이론적틀에 맞춰 분석, 고비용 모델

- 수십억개의 수학적 모델 분석을 통한 키워드의 상관관계들로 확인 가능

- 상관관계는 빠른 분석이 가능해서 타이밍을 놓칠 일이 없음

- 아비바(Aviva) : 보험회사의 보험가입자의 데이터 활용

- 인과관계도 필요하지만 신속한 의사결정이 필요하면 상관관계로 예측 가능함

 

2절 빅데이터의 가치와 영향

 

1. 빅데이터의 가치

 

사치 산정이 어려운 이유

1) 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발

- 누가 어디서 언제 재활용할지 없음

- 창의적 조합은 기존에 업는 문제를 해결하는데 도움을

- 평소의 가치와 추가 정보 제공까지 수반 되어짐 (상품진열cctv - 범죄활용)

2) 새로운 가치 창출

- '기존에 없던 가치' 창출 : 킨들이 독자분석, 페이스북의 소셜그래프

3) 분석 기술 발전

- 클라우드 분산 컴퓨팅에 따른 저렴한 비용으로 활용도가 높아짐

- 텍스트 마이닝 기법, 데이터가 주식 가치에 반영이 되지 않음

 

2. 빅데이터의 영향

 

빅데이터가 가치를 반들어내는 방식

- 투명성 제고로 연구개발 관리 효율성 제고

- 시물레이션을 통한 수요 포착 주요 변수 탐색으로 경쟁력 강화

- 고객 세분화 맞춤 서비스 제공

- 알고리즘 활용한 의사결정 보조 또는 대체

- 비즈니스 모델과 제품, 서비스 혁신

 

1) 기업 : 혁신, 경쟁력 제고, 생산성 향상

- 신사업발굴, 원가절감, 제품차별과, 기업활동 투명성 제고, 경쟁력

2) 정부 : 환경 탐색, 상황분석, 미래대응

- 사회변화추정하고 재해정보 추출

- 사회관계망 분석, 시스템 다이내믹스, 복잡계이론 미래의제 도출

- 미래 사회에 따른 법제도 거버넌스 시스템, 성장 전략, 안보 정보 제공

3) 개인 : 목적에 따라 활용

- 정치인, 가수 활용

맞춤형 서비스 저렴한 비용, 적시에 필요한 정보 얻음 기회비용 절약

생활 전반의 스마트화

 

3절 비즈니스 모델

 

1. 빅데이터 활용 사례

 

1) 기업

- 구글 검색 : 로그데이터 활용한 기존의 페이지 링크, 차원의 신호 추가 검색결과 개선

- 월마트 : 경쟁력 강화 구매패턴 분석

- 의료부분 개선 : 생산성 향상, 3천억 절감, 왓슨 사용

2) 정부

- 대국민 서비스 개선

- NSA(National Security Agency) : 국가 안전 확보 활동

3) 개인

- 정치인, 가수

 

2. 빅데이터 활용 기본 테크닉

 

1) 연관 규칙 학습 (Association rule learning)

- 계산대의 데이터 활용 : 커피를 구매하는 사람은 탄산 음료를 많이 사는가?

- 어떤 변인들 간에 주목할 만한 상관관계가 있는지

- 상관관계가 높은 상품 진열, 로그 데이터 분석하여 행위자 색출

2) 유형 분석 (Classification tree analysis)

- 사용자는 어떤 특성을 가진 집단에 속하는가

- 새로운 사건을 속하게 범주는 찾아내는 통계적 분류를 위해 훈련용 분류 갖춰야함

- 문서 분류, 조직 나눌 , 수강생 특성에 따라 분류

3) 유전 알고리즘 (Genetic algorithrns)

- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?

- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘 통해 '진화'시킴

- 응급실에 의사 배치, 효율적 차개발위해 원자재와 엔지니어링 결함

4) 기계 학습 (Machine learning) 

- 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶을까?

- 데이터를 통한 학습할 있는 소프트웨어 포함

- 훈련 데이터로부터 학습한 알려진 특성을 활용한 '예측'하는 일에 초첨

- 이메일 스팸 걸러내기, 사용자 기호에 따른 추천 서비스

5) 회귀 분석 (Regression analysis)

- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

- 독립변수를 조작하여 종속변수가 어떻게 변하는지 변인간의 관계 파악

- 만족도에 따른 충성도 영향, 이웃과 규모에 따른 집값의 영향

6) 감정 분석 (Sentiment analysis)

- 새로운 환불 정책에 대한 고객의 평가는 어떤가

- 특정 주제에 대해 말하거나 글을 사람의 감정 분석

- 고객 코멘트, 소셜미디어 의견 바탕으로 고객 원하는 것을 찾아내는

7) 소셜 네트워크 분석 (Social network analysis)

- 특정인과 다른 사람이 몇촌 정도의 관계인가

- 오피니언 리더, 여향력 있는 사람 발견

- 고객들간이 소셜 관계 파악

 

상관관계 발견, 소비자 유형 분류, 보유자원 할당, 적정요금 책정

→ 다양한 비즈니스 모델 개발 (분석 테크닉 + 창의적 재조합)

 

4절 위기 요인과 통제 방안

 

1. 위기요인

 

1) 사생활 침해

원인 :

- M2M 시대에 따른 정보 수집 센서들의 수가 점점 늘어남

- 개인 정보 가치 증가에 따른 사업자가 개인 정보 습득에 많은 자원 투자

- 빅브라더가 사람들의 일상생활 전반을 감시할 있는 기술적 기반

문제 :

- 특정 데이터가 본래 목적 외의 가공되어 활용되면서 사회, 경제적 위험으로 변형

- 익명화 기술의 문제 : 누구인지 밝혀진다.

- 미국의 NSA 17억건의 정보 수집을

2) 책임 원칙 훼손

- 분석 대상이 되는 사람이 예측 알고리즘이 희생양이 가능성

- 경찰관의 컴퓨터 알고리즘 분석에 따라 특정 지역 순찰

- 영화 '마이너리티 리포트' 범죄 예측 프로그램, 잠재적 위협에 따라 책임 묻기

- 어떤 사람이 특정 집단에 속해서 자신 시용도와 무관하고 부당하게 차별 당할 있음

3) 데이터 오용

- 사람들이 필요한 것은 현실에 대한 인식을 바탕에 두고 있음, 사람들 의견 따르지 않음

- 잘못된 지표를 사용함 : 베트남 전쟁사례, 구글 검색 알고리즘에 따른 거래 사이트 퇴출

 

2. 통제방안

 

1) 동의에서 책임으로

- 소비자 프라이버시 보호 3 권고 사항

- 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용(Privacy by Ðesign)

- 기업은 소비자에게 공유 정보 선택 옵션 제공(Simplified Choice for Business and Consumers)

- 소비자에게 수집된 정보 내용 공개 및 접근권 부여 (Greater Transparency)

- 사용자 정보가 가공될 매번 동의가 불가능 하여 '개인정보 사용자의 책임'으로 해결 필요

- 개인 정보 사용 주체가 보다 적극적인 보호 장치 강구 해야함

2) 결과 기반 책임 원칙 고수

- 행동결과를 처벌해야 , 실제 결과에 대해서만 처벌

- 예측 자료에 의한 불이익 당할 가능성 최소화 하는 장치 마련

3) 알고리즘 접근 허용

- 구글 검색 알고리즘의 부당한 적용

- 객관적 인증방안 도입, 알고리즘 부당함 반증할 방법 명시하여 공개

→ '알고리즈미스트'전문가 필요

 

5절 미래의 빅데이터

 

1) 데이터 : 모든 것의 데이터화

- 사물인터넷, 웨어러블 등을 통한 모든 것들이 데이터화

- 창의적으로 재활용되어 가치를 만들어 있음 (편의점 컵을 통한 선거결과예측)

- 기존 기업의 모델 변경 (나이키의 의류, 액서사리 )

2) 기술 : 진화하는 알고리즘, 인공지능

- 구글 검색엔진, 넷플릭스의 추천 알고리즘 : 데이터 증가에 따른 정확도 증가

- 인공신경망 개발, 스스로 학습이 가능한 인공지능 : 필수 불가결한 기술

- IBM의 왓슨 → 이러한 기계적 판단이 어느 선까지 허용되고 통제 있는가

3) 인력 : 데이터 사이언티스트, 알고리즈미스트

- 통찰력, 전달력, 협업 능력을 갖춘 전문 인력

- 데이터 사이언티스트 : 다각적 분석 통해 인사이트 도축, 전략방향제시 활용

- 알고리즈미시트는 사이언티스트가 일로 부당한 피해가 없도록 막기 위해서 필요

- 컴퓨터, 수학, 통계, 비즈니스(도메인) 지식 필요


+ Recent posts