1절 빅데이터의 이해

 

1. 정의

빅데이터란?

- 데이터

- 복잡성 증가로 인한 기존 툴로 다루기 어려운 데이터세트의 집합

- “빅데이터는 일반적인 데이터베이스 소프트웨어로 저장 관리 분석할 수 있는 범위를

초과하는 규모의 데이터다."(McKinsey, 2011)

- “빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고

데이터의 초고속 수집· 발굴· 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다." (IDC, 2011)

- 인재나 조직까지도 빅데이터 개념에 포함

- “빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던

새로운 통찰이나 가치를 추출해 내는 일이다.

나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다."

(Mayer-Schönberger&Cukier, 2013)

 ‘기존의 작은 데이터 처리 분석으로는 얻을 수 없었던 통찰과 가치를 창출하는 새로운 방식’

 

3V

- 데이터의 양(Volume)

- 데이터 유형과 소스 측면의 다양성 (Variety)

- 데이터 수집과 처리 측면에서 속도(Velocity)

 

빅데이터 정의의 범주 효과

데이터 변화

규모, 형태, 속도

기술 변화

새로운 데이터 처리, 저장, 분석 기술 아키텍처

인재, 조직변화

데이터 사이언티스 같은 새로운 인재 필요, 데이터 중심 조직

기존 방식으로는 얻을 없었던 통찰 가치 창출

사업방식, 시장, 사회, 정부등에서 변화화 혁신 주도

 

2. 출현 배경

새로 등장한 것이 아니라 기존의 데이터, 처리방식, 사람과 조직 차원의 '변화'

→ '패러다임 전환'

 

빅데이터 출현 배경

1) 산업계 : 고객 데이터 축적

- 양질 전환 법칙

- 거대한 가치 창출이 가능할 만큼 충분한 규모 보유 데이터로 숨어있는 가치 발굴

2) 학계 : 거대 데이터 활용 과학 확산

- 인간 게놈 프로젝트 (시간과 비용이 줄어듬)

- 스위스 제네바 대형 강입자충돌기, 나사이 기후시물레이션 등의 슈퍼컴퓨터

기술 아키텍처 통계 도구들의 지속적 발전

3) 관련 기술 발전 : 디지털화, 저장기술, 인터넷보급, 모바일혁명, 클라우드 컴퓨팅

- 아날로그의 디지털화 : 편리성 새선, 동일한 복제품 생산 가능, 비용절감

- 인터넷 발전 : 광고, 양면시장모델, 미디어시장에서 비지니스모델 반영(야후, 구글)

- 사용자 로그 정보 : 사용자의 프로파일링, 아이덴티티로 인해 광고를 매칭 정확도 향상

- 클라우드 컴퓨팅 : 처리 비용을 획기적으로 낮춤, 맵리듀스 활용

- 개별 기업의 고객 데이터 축적 및 활용 증가,  인터넷 확산,저장 기술의 발전과 가격 하락,

   모바일 시대의 도래와 스마트 단말의 보급 클라우드 컴퓨팅 기술 발전

   SNS와 사물네트워크 확산 등

 

ICT(Information and Communications Technologies) 발전과 빅데이터 출현

 

3. 빅데이터 기능

 

1) 산업혁명이 석탄이나

- 자원과 유통의 혁명적 변화, 제조업에서 서비스업까지

2) 21세기의 원류

- 에너지원 = 정보, 생산 향상, 새로운 산업 생성

3) 렌즈

- 현미경 렌즈, 게놈프로젝트

- 구글 'Ngram Viewer'  : 남북전쟁이후 미국 are → is  변화되는 상황을 그래프로 표현

4) 플랫폼

- 공동 활용의 목적으로 구축된 유무형의 구조물,

- OS 플랫폼

- 페이스북

- API(Application Program Interface)

 

4. 빅데이터가 만들어 내는 본직적인 변화

 

1) 사전처리 → 사후처리

- 산업혁명 : 정보의 사전처리 방식, 조립과정에서 사람과 기계간이 역할 조정, 표준화된 문서

- 사후처리 : 데이터를 다양한 방식으로 조합해 숨은 정보를 찾는 방식

- 로그데이터 분석 → 광고활용, 데이터 마이닝 활용

2) 표본조사 → 전수조사

- 표본조사 : 비용, 도구의 걸림돌로 인해 적은 데이터로 풍부한 결과 목표

- 클라우팅 기술 발전에 따라 도구 발전으로 비용이 문제가 되지 않음

- 샘플링이 주지 못하는 패턴이나 정보를 제공 새로운 시스템, 불법 거래 적발 가능

- 표본조사는 활용성 측면에서 융통성이 떨어짐

- 전수조사는 다양한 질문에 다양한 방식으로 재가공 가능, 융통성 유지

3) 질 →

- 회귀분석에서 새로운 변수가 추가되면 설명력 하락, 변수가 무한하면 100 수렴

- 구글 자동 번역 시스템 구축 : 양의 중요성 / 수십억 말뭉치(corpus) 오역까지 수용

- 자료가 많아질수록 양질의 정보가 많아짐, 개의 오류는 대세에 영향을 주지 못함

- 제외되는 사례도 다른 변수에는 정보를 갖고 있기에 대용량의 정보가 많은 가치 추출

4) 인과관계 → 상관관계

- 인과관계 : 이론 기초, 변인 결정후 시험통해 이론적틀에 맞춰 분석, 고비용 모델

- 수십억개의 수학적 모델 분석을 통한 키워드의 상관관계들로 확인 가능

- 상관관계는 빠른 분석이 가능해서 타이밍을 놓칠 일이 없음

- 아비바(Aviva) : 보험회사의 보험가입자의 데이터 활용

- 인과관계도 필요하지만 신속한 의사결정이 필요하면 상관관계로 예측 가능함

 

2절 빅데이터의 가치와 영향

 

1. 빅데이터의 가치

 

사치 산정이 어려운 이유

1) 데이터 활용 방식 : 재사용, 재조합, 다목적용 개발

- 누가 어디서 언제 재활용할지 없음

- 창의적 조합은 기존에 업는 문제를 해결하는데 도움을

- 평소의 가치와 추가 정보 제공까지 수반 되어짐 (상품진열cctv - 범죄활용)

2) 새로운 가치 창출

- '기존에 없던 가치' 창출 : 킨들이 독자분석, 페이스북의 소셜그래프

3) 분석 기술 발전

- 클라우드 분산 컴퓨팅에 따른 저렴한 비용으로 활용도가 높아짐

- 텍스트 마이닝 기법, 데이터가 주식 가치에 반영이 되지 않음

 

2. 빅데이터의 영향

 

빅데이터가 가치를 반들어내는 방식

- 투명성 제고로 연구개발 관리 효율성 제고

- 시물레이션을 통한 수요 포착 주요 변수 탐색으로 경쟁력 강화

- 고객 세분화 맞춤 서비스 제공

- 알고리즘 활용한 의사결정 보조 또는 대체

- 비즈니스 모델과 제품, 서비스 혁신

 

1) 기업 : 혁신, 경쟁력 제고, 생산성 향상

- 신사업발굴, 원가절감, 제품차별과, 기업활동 투명성 제고, 경쟁력

2) 정부 : 환경 탐색, 상황분석, 미래대응

- 사회변화추정하고 재해정보 추출

- 사회관계망 분석, 시스템 다이내믹스, 복잡계이론 미래의제 도출

- 미래 사회에 따른 법제도 거버넌스 시스템, 성장 전략, 안보 정보 제공

3) 개인 : 목적에 따라 활용

- 정치인, 가수 활용

맞춤형 서비스 저렴한 비용, 적시에 필요한 정보 얻음 기회비용 절약

생활 전반의 스마트화

 

3절 비즈니스 모델

 

1. 빅데이터 활용 사례

 

1) 기업

- 구글 검색 : 로그데이터 활용한 기존의 페이지 링크, 차원의 신호 추가 검색결과 개선

- 월마트 : 경쟁력 강화 구매패턴 분석

- 의료부분 개선 : 생산성 향상, 3천억 절감, 왓슨 사용

2) 정부

- 대국민 서비스 개선

- NSA(National Security Agency) : 국가 안전 확보 활동

3) 개인

- 정치인, 가수

 

2. 빅데이터 활용 기본 테크닉

 

1) 연관 규칙 학습 (Association rule learning)

- 계산대의 데이터 활용 : 커피를 구매하는 사람은 탄산 음료를 많이 사는가?

- 어떤 변인들 간에 주목할 만한 상관관계가 있는지

- 상관관계가 높은 상품 진열, 로그 데이터 분석하여 행위자 색출

2) 유형 분석 (Classification tree analysis)

- 사용자는 어떤 특성을 가진 집단에 속하는가

- 새로운 사건을 속하게 범주는 찾아내는 통계적 분류를 위해 훈련용 분류 갖춰야함

- 문서 분류, 조직 나눌 , 수강생 특성에 따라 분류

3) 유전 알고리즘 (Genetic algorithrns)

- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?

- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘 통해 '진화'시킴

- 응급실에 의사 배치, 효율적 차개발위해 원자재와 엔지니어링 결함

4) 기계 학습 (Machine learning) 

- 기존 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고싶을까?

- 데이터를 통한 학습할 있는 소프트웨어 포함

- 훈련 데이터로부터 학습한 알려진 특성을 활용한 '예측'하는 일에 초첨

- 이메일 스팸 걸러내기, 사용자 기호에 따른 추천 서비스

5) 회귀 분석 (Regression analysis)

- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?

- 독립변수를 조작하여 종속변수가 어떻게 변하는지 변인간의 관계 파악

- 만족도에 따른 충성도 영향, 이웃과 규모에 따른 집값의 영향

6) 감정 분석 (Sentiment analysis)

- 새로운 환불 정책에 대한 고객의 평가는 어떤가

- 특정 주제에 대해 말하거나 글을 사람의 감정 분석

- 고객 코멘트, 소셜미디어 의견 바탕으로 고객 원하는 것을 찾아내는

7) 소셜 네트워크 분석 (Social network analysis)

- 특정인과 다른 사람이 몇촌 정도의 관계인가

- 오피니언 리더, 여향력 있는 사람 발견

- 고객들간이 소셜 관계 파악

 

상관관계 발견, 소비자 유형 분류, 보유자원 할당, 적정요금 책정

→ 다양한 비즈니스 모델 개발 (분석 테크닉 + 창의적 재조합)

 

4절 위기 요인과 통제 방안

 

1. 위기요인

 

1) 사생활 침해

원인 :

- M2M 시대에 따른 정보 수집 센서들의 수가 점점 늘어남

- 개인 정보 가치 증가에 따른 사업자가 개인 정보 습득에 많은 자원 투자

- 빅브라더가 사람들의 일상생활 전반을 감시할 있는 기술적 기반

문제 :

- 특정 데이터가 본래 목적 외의 가공되어 활용되면서 사회, 경제적 위험으로 변형

- 익명화 기술의 문제 : 누구인지 밝혀진다.

- 미국의 NSA 17억건의 정보 수집을

2) 책임 원칙 훼손

- 분석 대상이 되는 사람이 예측 알고리즘이 희생양이 가능성

- 경찰관의 컴퓨터 알고리즘 분석에 따라 특정 지역 순찰

- 영화 '마이너리티 리포트' 범죄 예측 프로그램, 잠재적 위협에 따라 책임 묻기

- 어떤 사람이 특정 집단에 속해서 자신 시용도와 무관하고 부당하게 차별 당할 있음

3) 데이터 오용

- 사람들이 필요한 것은 현실에 대한 인식을 바탕에 두고 있음, 사람들 의견 따르지 않음

- 잘못된 지표를 사용함 : 베트남 전쟁사례, 구글 검색 알고리즘에 따른 거래 사이트 퇴출

 

2. 통제방안

 

1) 동의에서 책임으로

- 소비자 프라이버시 보호 3 권고 사항

- 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용(Privacy by Ðesign)

- 기업은 소비자에게 공유 정보 선택 옵션 제공(Simplified Choice for Business and Consumers)

- 소비자에게 수집된 정보 내용 공개 및 접근권 부여 (Greater Transparency)

- 사용자 정보가 가공될 매번 동의가 불가능 하여 '개인정보 사용자의 책임'으로 해결 필요

- 개인 정보 사용 주체가 보다 적극적인 보호 장치 강구 해야함

2) 결과 기반 책임 원칙 고수

- 행동결과를 처벌해야 , 실제 결과에 대해서만 처벌

- 예측 자료에 의한 불이익 당할 가능성 최소화 하는 장치 마련

3) 알고리즘 접근 허용

- 구글 검색 알고리즘의 부당한 적용

- 객관적 인증방안 도입, 알고리즘 부당함 반증할 방법 명시하여 공개

→ '알고리즈미스트'전문가 필요

 

5절 미래의 빅데이터

 

1) 데이터 : 모든 것의 데이터화

- 사물인터넷, 웨어러블 등을 통한 모든 것들이 데이터화

- 창의적으로 재활용되어 가치를 만들어 있음 (편의점 컵을 통한 선거결과예측)

- 기존 기업의 모델 변경 (나이키의 의류, 액서사리 )

2) 기술 : 진화하는 알고리즘, 인공지능

- 구글 검색엔진, 넷플릭스의 추천 알고리즘 : 데이터 증가에 따른 정확도 증가

- 인공신경망 개발, 스스로 학습이 가능한 인공지능 : 필수 불가결한 기술

- IBM의 왓슨 → 이러한 기계적 판단이 어느 선까지 허용되고 통제 있는가

3) 인력 : 데이터 사이언티스트, 알고리즈미스트

- 통찰력, 전달력, 협업 능력을 갖춘 전문 인력

- 데이터 사이언티스트 : 다각적 분석 통해 인사이트 도축, 전략방향제시 활용

- 알고리즈미시트는 사이언티스트가 일로 부당한 피해가 없도록 막기 위해서 필요

- 컴퓨터, 수학, 통계, 비즈니스(도메인) 지식 필요


1 데이터와 정보

 

1. 데이터의 정의

 

데이터란?

- 1646 영국 문헌에서 처음 등장 주어진것이란 과거분사형

- 1940 컴퓨터 시대 도래 이후 관념적, 추상적 개념 → 기술적 사실적 변화

- 옥스퍼드 대사전 : 데이터를 추론과 추정의 근거를 이루는 사실

다른 객체와의 상호관계 속에서 가치를 갖는

- 객관적 사실이라는 존재적 특성 + 추론, 예측, 전망, 추정을 위한 근거의 당위적 특성

 

데이터 유형

구분

형태

예시

정성적 데이터(qualitative data)

언어, 문자

회사 매출이 증가함

정량적 데이터(quantitative data)

수치, 도형, 기호

나이, 몸무게, 온도, 풍속, 강우량

정성적 데이터 : 기술이 가능함, 설문조사의 주관식 ,  SNS상의 (=비정형데이터) → 분석비용

정량적 데이터 : 수치로 명확하게 표현, 데이터 관리 시스템으로 저장, 검색, 분석

 

암묵지와 형식지

암묵지 : 학습과 체험을 통해 개인에게 습득되었지만 겉으로 들어나지 않는 지식

오랜 경험을 통해 개인에게 습득된 무형의 지식

다른사람에게 공유되기 어렵다

공통화(Socialization) , 내면화(Internalizaion)

형식지 : 형상화된 지식, 유형의 대상이기에 지식의 전달과 공유가 매우 용이

조직원 개인의 지식 공유, 발전 가능

표출화(ExternaIization) , 연결화(Combination)

 

암묵지와 형식지의 상호작용 : 지식 형성의 중요한 기초

현장 경험을 통해 축적된 내면화된 지식

조직의 지식으로 공통화를 위해서는

개인의 암묵지를 표출화하고

다른 개인이 본인의 지식에 연결

새로운 경험을 부가하여 다시 내면화 하는 과정

 

2. 데이터와 정보의 관계

 

DIKW 피라미드

데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명

지혜

(Wisdom)

근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적인 아이디어

) A마트의 다른 상품들도  B마트보다 것이라고 판단

지식

(Knowledge)

상호 연결된 정보 패턴을 이해하며 이를 토대로 예측한 결과물

) 상대적으로 저렴한 A마트에서 연필을 사야겠다.

정보

(Information)

데이터의 가공 상관관계간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터

) A마트의 연필가격이 싸다

데이터

(Data)

존재형식을 불문하고, 데이터와 상관관계가 없는 가공하기전의 순수한 수치나 기호
) A마트는 100, B마트는 200원에 연필을 판매한다.

데이터의 정확성은 향후 데이터 간의 관계 및 현상의 분석(정보)과 적용(지식)

더 나아가 미래를 예측하고 창의적 산물을 도출(지혜)하는 데 지대한 영향을 미치며

가치창출에 핵심적인 역할을 수행

 

2 데이터베이스 정의와 특징

 

1. 용어의 연역

데이터베이스(database)

- 1950년대 미국정부 자국군대의 군비상황 관리를 위한 도서관 설립 '데이터의 기지'

- 1963 6 미국 SDC '컴퓨터 중심의 데이터베이스 개발과 관리' : 쉽게 검색하는 작업

: 대량의 데이터를 축척하는 기지

- 1965 2 심포지엄 : 시스템을 통한 체계적 관리와 저장 의미를 담은 '데이터베이스 시스템'

- 1963 GE C.바크만 : 데이터베이스 관리 시스템 IDS개발 데이터 모델 기반 관리 시스템

- 1970년대 유럽 '데이터베이스' 단일어 일반화, 1970 후반 미국에서 사용

우리나라는 1975 미국의 CAC KORSTIC 통해 서비스 되면서 이용

자기테이프형태의 배치방식 온라인 정보검색 시스템 데이터 연구개발(80 중반)

 

2. 데이터베이스의 정의

다양한 정보기술의 발달과 인터넷이 확산등으로 현대적 개념이 적용된 용어로 정의

체계적으로 정렬된 데이터의 집합

-  “문자,기호,음성,화상,영상 등 상호 관련된 다수의 콘텐츠를

정보 처리 및 정보통신 기기에 의하여 체계적으로 수집 ·축적하여

다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합제”

- EU의 데이터베이스의 법적 보호에 관한 지침 :  “체계적이 거나 조직적으로 정리되고 전자식

또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물”

-  국내 ‘저작권법’ : “소재를 체계적으로 배열 또는 구성한 편집물로서 개별적으로

그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것”

- 컴퓨터 용어사전 등 :  “동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서

데이터를 받아들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합”

 “관련된 레코드의 집합 소프트웨어로는 데이터베이스관리시스템을 의미한다"

DBMS : 데이터베이스를 구축, 유지하는 소프트웨어

      + 데이터베이스 = 데이터베이스 시스템

 

3. 데이터베이스의 특징

텍스트나 숫자 그래프 + 멀티미디어까지 저장가능, 정보를 저장하는 지식 베이스, 복합체로 진화

 

1) 통합된 데이터 : 동일한 내용, 중복이 허용되지 않음

2) 저장된 데이터 : 검퓨터가 접근할 있는 저장 매체에 저장

3) 공용 데이터 : 여러 사용자가 서로 다른 목적으로 데이터 공동 이용, 대용량화, 구조복잡

4) 변화되는 데이터 : 저장하는 내용이 상태를 나타냄, 변화하지만 현재의 정확한 데이터 유지

 

- 정보의 축적 전달 : 기계가독성, 검색가능성, 원격조작성

- 정보이용 : 정보요구에 따라 신속하게 원하는 정보 획득하여 경제적으로 찾아냄

- 정보관리 : 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리

방대한 양의 정보를 체계적으로 축적하고 새로운 내용 추가나 갱신 용이

- 정보기술 발전 :  정보처리, 검색·관리 소프트웨어, 관련 하드웨어, 정보 전송을 위한 네트워크 기술 등의 발전

- 경제, 산업적 측면 : 인프라로서 특성 → 효율성 제고, 국민의 편의 증진하는 수단

 

3 데이터베이스 활용

 

1. 기업내부 데이터베이스

정보통신망 구축 기업경영전반 모든 자료 연계, 체계구축, 운영 전사시스템

단순 수집에서 탈피 '분석' 중심이 되는 시스템 구축

단순 자동화 OLTP(Online Transaction Processing)   OLAP (Online Analytical Processing) 로 변화

2000년대 이후  

- CRM(Consumer Relationship Management, 고객관계 관리) : 고객분석, 마케팅전략

- SCM(Supply Chain Management, 공급망관리) : 시간과 비용 최적화

SCM은 일반적으로 자재구매 데이터 생산·재고 데이터 유통·판매 데이터 고객 데이터로 구성

특히 유통·판매 및 고객 데이터가 CRM과 연동되기 때문에 CRM과 SCM은 상호 밀접한 관련

 

. 제조부분

기업별 고유 시스템 형태 솔루션 유형( 공정을 포함하는 범위)

 ERP(Enterprise Resource Planning) + SCM

실시간 기업(RTE)은 기업의 비즈니스 프로세스를 투명하고 민첩하게 유지하여

환경 변화에 따른 적응 속도를 최대화하여 지연시간을 없애는 정보화 전략

대기업-중소기업 협업적 IT

 ERP 시스템 도입과 함께 DW, CRM, BI(Business Intelligence) 등의 인하우스 DB 구축

 

. 금융부분

2000년대 초반 EAI(Enterprise Applications Integration), ERP, e-CRM, 인터넷뱅킹

2000년대 중반 DB 마케팅, 방카슈랑스, BI기반 시스템 구축

최근  EDW(Enterprise Data Warehouse)의 확장이 데이터베이스 시장 확대에 기여할 것으로 예상

 

. 유통부분

CRM + SCM

상거래를 위한 각종 인프라 및 KMS(Knowledge Management System)를 위한 별도의 백업시스템도 구축

균형성과관리(BSC), 핵심성과지표(KPI), 웹 리포팅 등의 다 고객 분석 툴을 통해 기존 데이터베이스와 연계

전자태그(RFID)는 사물과 주변 정보를 접촉 없이도 무선주파수로 전송·처리가 가능한 인식기술

 

2. 사회기반구조로서의 데이터베이스

90년대 사회간접자본(SOC) 차원에서 EDI(Electronic Data Interchange, 전자문서교환)

부가가치통신망(VAN)을 통한 정보망이 구축

1995년에 조세전산망, 1996년에는 조달·국방·물류종합망· 의료정보망·산업정보망

90년대 후반  지리, 교통부문의 데이터베이스 구축이 본격적으로 시작

00년대  의료· 교육·행정 등 사회 각 부문으로 공공 DB의 구축·이용, 인터넷 보편화 일반가정에서도 가능

 

. 물류부분

'실시간 차량추적 :  운행중인 차량의 위치 및 상태를 실시간으로 파악하여 관제

CVO서비스(Commercial Vehicle Operation System, 화물운송정보)

EDI서비스, 데이터베이스 서비스(물류정보) 부가서비스

한국통신 - 기업물류정보 제공

한국물류정보통신 - 해양수산 데이터베이스 개발

종합물류정보망 연계

 민간 기업 물류 VAN은 2000 이후 활성화 택배/물류 회사 발전

 

. 지리부분

1995년 시작된 국가지리정보체계(NGIS) 구축 - 국가표준설정, 활용체계 개발

2000년 1단계 사업이 종료 :  국가 수치지형도의 구축

,  데이터 포뱃인 DXF(Data eXchange Format)로 구축되어 표현 한계

2005 2 단계 :  토지종합정보망(LMIS) 및 공공제한 관련 정보,7대 지하시설물 지리정보

GIS, RS(Remote Sensing), GPS(Global Positioning System) , ITS(Intelligent Transport System)

기술을 통합하여 새로운 GIS 응용에 활용하는 4S 통합기술

LBS(Location Based Service) 기술, SIM(Spatial Information Management),

공간 DBMS 등 GIS 관련 정보기술의 비약적인 발전

 

. 교통부분

동적(실시간) 교통정보 :  지능형교통시스템(ITS Intelligent Transport System), 교통방송

정적(비실시간) 교통정보 :  교통정책 및 계획 수립 등에 필요한 교통 분야별 기초자료 및 통계

 

. 의료부분

1996년부터 53개 기관을 대상으로 의료EDI 상용서비스가 제공

2002 의료법 개정에 따른 전자의무기록

의료정보시스템  u-헬스 등장 → 환자중심의 병원 경영기법

 

. 교육부분

대학정보화 : 대학도서관 소장자료

교육정보 공동활용체제 : 에뉴넷

교육행정정보시스템 (NEIS. National Education Information System)


아래의 내용은 영우글로벌 러닝에서 진행된 4차 산업혁명 관련 교육과정에서 방형욱 강사님이 알려주신 내용을 기반으로 작성된 문서입니다.

 # 정규화 방법

 

    정규화되지 않은 상태

 

       ↓ 제1정규화(1 Normalization) : repeating group 제거

 

    제1정규형(1 Normal Form)

 

       ↓ 제2정규화(2 Normalization) : 복합UID에 대한 부분 종속 제거

 

    제2정규형(2 Normal Form)

 

       ↓ 제3정규화(3 Normalization) : Non-UID에 대한 종속 제거

 

    제3정규형(3 Normal Form)



'자격증 공방 > SQLD' 카테고리의 다른 글

제 29회 SQLD 합격 후기  (4) 2018.08.29
제 5-3절 조인 수행 원리  (0) 2018.07.17
제 5-2절 인덱스 기본  (0) 2018.07.17
제 5-1절 옵티마이저와 실행계획  (0) 2018.07.17
제 4-8장 절차형 SQL  (0) 2018.07.11

테이블 조인을 수행할 조인 단계별로 다른 조인기법 사용

 

1. NL JOIN

프로그래밍에서 사용하는 중첩된 반복문과 유사한 방식으로 조인 수행

결과를 가능한 빨리 화면에 보여주어야 하는 온라인 프로그램에 적당한 조인 기법

반복문 외부에 있는 테이블을 선행테이블 또는 외부테이블이라 하고 반복문 내부에 있는 테이블을 후행테이블 또는 내부테이블이라

FOR 선행 테이블 읽음 → 외부 테이블(Outer Table)

FOR 후행 테이블 읽음 → 내부 테이블(Inner Table)

(선행 테이블과 후행 테이블 조인)

먼저 선행테이블 조건 만족하는 추출하고 후행을 읽으면서 조인 수행, 선행테이블 조건만족하는 모든 행의 수만큼 반복 수행

따라서 만족하는 행수가 많으면 그만큼 후행 테이블 조건 작업 반복 수행

랜덤방식으로 데이터 액세스 하기에 처리 범위가 좁은 것이 유리

작업방식

  1. 선행 테이블에서 주어진 조건을 만족하는 행을 찾음 만족하지 않으면 해당 데이터는 필터링
  2. 선행 테이블의 조인 값을 가지고 후행 테이블에서 조인 수행 선행테이블의 조인값이 후행에 존재하지 않으면 선행 테이블 데이터 필터링됨
  3. 선행 테이블의 조건을 만족하는 모든 행에 대해서 1 작업 반복 수행 인덱스에서 추출한 레코드 식별자를 이용하여 후행 액세스

save image

 

2. Sort Merge JOIN

조인 칼럼을 기준으로 데이터를 정렬하여 조인 수행 NL JOIN 랜덤으로 읽던 것의 단점을 개선함

, 정렬할 데이터가 많아 메모리를 넘어 임시 영역을 사용하는 경우 성능 저하 발생 그래서 대량은 HASH JOIN 사용

비동등 조인 조건에서 작업 가능한 것이 장점(HASH JOIN 동등만 가능)

인덱스를 사용하지 않기때문에 인덱스 미존재시 사용가능

정렬 작업이 미리 수행되있는 조인은 추가 정렬 작업이 이루어지지 않음

save image

작업방식

  1. 선행 테이블에서 주어진 조건을 만족하는 행을 찾음
  2. 선행 테이블에의 조인 키를 기준으로 정렬 작업을 수행 조건을 만족하는 모든 행에 대해 반복 수행
  3. 후행 테이블에서 주어진 조건을 만족하는 행을 찾음
  4. 후행 테이블에의 조인 키를 기준으로 정렬 작업을 수행 조건을 만족하는 모든 행에 대해 반복 수행
  5. 정렬된 결과를 이용하여 조인을 수행, 성공하면 추출버퍼에 넣음

 

3. HASH JOIN

HASH 기법 이용하여 조인 수행

서로 동일한 해쉬 값을 갖는 것들 사이에서 실제 값이 같은지 비교하면서 조인 수행

NL조인의 랜덤 액세스 문제점과 Sort Merge JOIN 정렬작업의 부담을 해결의 위해 등장

인덱스 존재 하지 않아도 사용 가능

동등 조건에서만 사용 가능

결과 수가 적은 테이블을 선행테이블로 선정, 메모리 용량을 넘어서면 임시영역에 저장되기 때문에

그래서 선행 테이블을 Build Input, 후행테이블을 Prove Input으로 불림

save image

 

작업방식

  1. 선행 테이블에서 주어진 조건을 만족하는 행을 찾음
  2. 선행 테이블의 조인 키를 기준으로 해쉬 함수를 적용하여 해쉬 테이블 생성 조인칼럼과 SELECT 절에서 필요로 하는 칼럼도 함께 저장됨

반복수행

  1. 후행 테이블에서 주어진 조건을 만족하는 행을 찾음
  2. 후행 테이블의 조인 키를 기준으로 해쉬 함수를 적용하여 해방 버킷을 찾음 조인 키를 이용해서 실제 조인될 데이터를 찾음
  3. 조인에 성공하면 추출버퍼에 넣음

후행 테이블의 조건을 만족하는 모든 행에 대해서 반복 수행


'자격증 공방 > SQLD' 카테고리의 다른 글

제 29회 SQLD 합격 후기  (4) 2018.08.29
별첨) SQL 정규화 방법  (0) 2018.07.17
제 5-2절 인덱스 기본  (0) 2018.07.17
제 5-1절 옵티마이저와 실행계획  (0) 2018.07.17
제 4-8장 절차형 SQL  (0) 2018.07.11

1. 인덱스 특징과 종류


테이블 기반으로 선택적으로 생성할 있는 구조, 생성하지 않아도 여러 개를 생성해도

목적 : 검색성능의 최적화

단점 : DML 작업은 인덱스까지 변경해야 하기 때문에 느려질 있는 단점(업데이트 부하가 없을수도 있음)

 

. 트리기반 인덱스

가장 일반적인 B-트리 인덱스

동등 조건 "=" BETWEEN, >등의 연산자로 검색하는 범위 검색 모두 가능

인덱스 동일 칼럼으로 구성된 것을 중복 생성은 불가능, 하지만 동일한 칼럼 순서를 변경하면 서로 다른 인덱스 생성 가능

외에도 ORACLE 비트맵인덱스, 리버스키 인덱스, 함수기반 인덱스 존재

save image

  • 루트 블록 : 가장 상위 단계
  • 브랜치 블록 : 분기를 목적으로 , 다음단계를 가르키는 포인터를 가지고 있음
  • 리프 블록 : 가장 아래 단계, 인덱스를 구성하는 칼럼의 데이터와 행의 위치를 가르키는 레코드식별자(RID) 구성

 인덱스 데이터는 인덱스를 구성하는 칼럼의 값으로 정렬, 양뱡향링크를 가지고 있어서 오름차순, 내림차순 검색 가능

 

비트 인덱스 : 사용될 질의 시스현시 모두 없는 경우인 DW AD-HOC 질의환경을 위해 설계

하나 인덱스 엔트리가 많은 행에인터를장하고 있는 구조

 

. SQL SERVER 클러스터형 인덱스

저장구조에 따라 클러스터형과 클러스터형으로 나뉨

  1. 인덱스의 리프페이지가 데이터 페이지, 탐색하면 모든 칼럼값을 곧바로 얻을 있음
  2. 인덱스 칼럼 순으로 물리적으로 정렬되어 저장, 한가지 순서로만 정렬, 인덱스는 한개만 생성 가능


 

2. 전체 테이블 스캔과 인덱스 스캔

 

. 전체 테이블

테이블에 존재하는 모든 데이터를 읽어가면서 조건에 맞으면 결과로 추출하고 맞지 않으면 버리는 방식

ORACLE : 고수위 마크(데이터가 쓰여있던 블록 최상의 위치) 아래의 모든 블록을 읽음, 오래걸릴 있음

재사용성이 떨어지기에 메로리에서 제거할 있도록 관리

전체 테이블을 읽어야하나?

  1. SQL 조건이 존재하지 않는 경우, 모든 데이터가 답이 있기에 무조건 결과로 반환
  2. 주어진 조건에 사용 가능한 인덱스가 존재하지 않는 경우, 함수를 사용하여 인덱스 칼럼을 변형해도 사용 불가
  3. 조건에 만족하는 데이터가 많아서 블록을 읽어야 한다는 옵티마이저의 판단에 의해
  4. 병렬처리 방식으로 처리하는 경우
  5. 전체 테이블 스캔 방식의 힌트를 사용한 경우

 

. 인덱스 스캔

인덱스를 구성하는 칼럼의 값을 기반으로 데이터를 추출하는 액세스 기법

검색을 위해 리프블럭을 통해 인덱스 구성 칼럼 값과 레코드 식별자 확인 가능

인덱스가 존재하지 않으면 레코드 식별자 통해 테이블 액세스 해야함

  1. 인덱스 유일 스캔 : 유일 인덱스를 사용하여 하나의 데이터 추출, 중복불허, 모두 동등조건값 "=" 대해 가능한 인덱스 스캔방식
  2. 인덱스 범위 스캔 : 한건 이상의 데이터 추출, "=" 값이 주어지지 않은 경우와 비유일 인덱스를 이용하는 모든 방식
  3. 인덱스 역순 범위 스캔 : 양뱡항 링크를 이용해 내림차순으로 데이터 읽는 방식, 최대값 쉽게 찾음
  4. 이외에도 인덱스 전체 스캑, 고속전체스캔, 스킵스캔 등이 존재


 

. 전체 테이블 스캔과 인덱스 스캔 방식의 비교

인덱스 스캔은 불필요하게 다른 테이블 블록 불필요 한번의 입출력 요청에 블록씩 데이터 읽음

전체 인덱스 스캔은 한번의 입출력 요청에 여러 블록 테이블 읽음, 모두 읽을꺼라면 유용

대용량 데이터 극히 일부의 데이터를 찾을 때는 인덱스 스캔 방식 사용

반대로 대부분의 데이터를 찾을 때는 전체 테이블 스캔 방법 유리


'자격증 공방 > SQLD' 카테고리의 다른 글

별첨) SQL 정규화 방법  (0) 2018.07.17
제 5-3절 조인 수행 원리  (0) 2018.07.17
제 5-1절 옵티마이저와 실행계획  (0) 2018.07.17
제 4-8장 절차형 SQL  (0) 2018.07.11
제 4-7절 DCL  (0) 2018.07.11

+ Recent posts