1부. 통계치 모으기

 

1 숫자

인간의 삶에는 숫자, 통계와 관련된 것들이 매우 많음

숫자는 어디서 나왔으며 누가 숫자를 만들었는지, ? 만들었는지 확인해야함

 

2 처리되지 않은 임의의 자료

첫째, 모집단과 표본이 완전 동일할 없음

둘째, 우린 개의 표본만 사용할 있음

임의표본을 채집하는 것은 어려운 것이나 핵심이다.

= 랜덤 샘플

 

3 정렬

표본의 속성이나 범주에 대해 궁금함

범주형 자료 : 쌓을수있고 분리할수도있고 하지만 계산은 불가능

수치자료화 변경 가능하다.

수치 자료 : 나이, 시력, , 연산 가능

 

자료의 분포를 보고싶음 히스토그램

다른 것과 비교할때는 박스플롯

자료를 가지고 항상 해야하는것은 간단한 그림으로 들여다 보는

 

4 조사작업

자료조사시 주요 확인해야 하는 4가지 주요 특징

  1. 표본의 크기 : 크기가 클수록 좋다. ( 신뢰수준과 직결)

모수적방법, 비모수적방법

정규분포 (=가우시안 분포)

 

확률표본에 따라 다른 확률분포 방식 : 신뢰구간에 영향을 미침

 

  1. 자료의 모양 : 어디로 치우쳐 있는지 확인하기
  2. 위치 : 중심적경향, 데이터가 어디 근처에 있는지, 어느 수를 기준으로 있는지

  양수인지, 음수인지, 단위 수인지, 말로 표현하기 어려워

  중심값, 최빈값, 평균값 등등으로 표현함

  자료의 모양과 위치는 함께 확인해야

  1. 퍼짐 정도 : 분산, 범위, 변동의 척도

4개로 나눌 있음

이상치

퍼짐 정도 : 표준편차

 

5 엄청난 실수

평균만으로 보지말고 그림을 그려서 봉우리를 보아야 한다

정규분포 모양이 아니라 여러가지 모양으로 나오면 데이터를 탐색해야함

변수에 따라서 분리해서 확인해 보아야

우리가 변수의 관계를 보고 있다고 생각할 때는 언제든지

우리의 결론에 영향을 끼치는 어떤 다른 변수가 있을 있다는 확인 필요

사실이 아닌것들을 믿어버릴 위험도 있음

 

유의수준 1%, 5%, 10%

귀무가설이 옳은데도 귀무가설을 탈락시키는 경우

양측검정, 단측검정

 

6 표본에서 모집단

모집단  전체를 히스토그램으로 쌓은 것을 '모집단 분포'라고 말한다. 모집단은 표본과 동일하게 모양, 위치, 퍼짐 정도의 특징(속성)을 갖고 있다. 표본의 속성을 '통계량'이라 부르고, 모집단의 속성을 '모수'라고 부른다. (표본의 평균, 표본 크기 등이 통계량이고 모집단의 평균/크기 등이 모수이다.) 통계로 하려는 것은 통계량을 사용해서 모수를 찾아내는 것이다. (정확히는 추측하는 것) 2부에서는 임의의 표본에서 찾은 통계량을 사용해서 모집단의 평균을 찾는 방법을 알아볼 것이다.

 

 

2 모수를 찾아서


7 중심극한정리

평균값이 알고 싶다면 표본을 뽑는다. 표본이 많이 모일수록 중심으로 모아진다.

모집단이 어떤 모양이든지 상관없다

표집분포 = 표본분포

퍼짐의 정도는 모집단보다는 좁다

 

동일 크기를 갖는 임의 표본을 엄청 많이 모은다고 상상해보자. 각 표본은 서로 다른 평균을 갖고 있을 것이다. 어떤 표본은 상대적으로 작은 평균값을 갖고, 어떤 표본은 상대적은 큰 평균값을 가질 것이다. 하지만, 표본들의 평균은 전반적으로 한군데로 모이기 시작한다. 많은 수의 표본들을 평균값을 기준으로 히스토그램을 그리게 되면, 정규분포에 해당하는 모양을 갖게 된다. 1인당 통신요금이든, 자동차의 수명이든, 모집단이 무엇이냐에 상관없이 모집단의 임의표본 평균을 많이 모을수록 임의표본 평균들의 모양은 정규분포에 가까워진다.

 

여기에서 우리는 두 가지를 얻게 된다. 첫 번째는 임의표본 개수가 많을수록 임의표본 평균들의 중앙값은 모집단의 평균과 같아진다는 점이다. 모집단의 모양이 한 쪽으로 치우져있든 평평하든지에 상관없이 임의표본 평균들의 중앙값은 모집단의 평균에 가까워진다..

 

두 번째로 알 수 있는 점은, 임의표본 평균들의 표준편차가 모집단의 표준편차보다 폭이 좁다는 것이다. 표본 크기가 커질수록, 임의표본 평균 더미의 모양은 낮고 넓은 모양에서 높고 좁은 모양에 가까워진다

ex) 출구조사

 

8 확률

표집분포 : 모집단의 평균을 보여주고 확률을 사용가능하게 한다.

 

임의표본의 개수가 엄청 많다면, 흥미로운 결과를 얻을 수 있는데, 그것은 바로  임의표본 평균들로부터 전체 모집단에 관한 확률을 계산할 수 있다는 점이다. 이는, 책의 예처럼 전체 표본의 평균 값 중에서 가운데 50%의 값의 범위가 3.74인치와 4.25인치 사이에 있다면, 모집단위에 무작위로 채집한 표본의 평균이 3.74인차와 4.25인치 사이에 있을 확률이 50%라는 사실을 의미한다.

 

임의표본평균들은 종모양의 정규분포 모양을 갖기 때문에, 중심값과 표준편차만 알면 다음의 수식을 도출할 수 있다.

 

  • 중심에서 표준편차만큼 떨어진 범위 안에 68%가 속한다.
  • 중심에서 표준편차의 2배만큼 떨어진 범위 안에 95%가 속한다.
  • 중심에서 표준편차의 3배만큼 떨어진 범위 안에 99.7%가 속한다.

 

이는 모집단에서 임의로 추출한 표본이 평균에서 표준편차의 2배만큼 떨어진 범위 안에 포함될 확률이 95%임을 의미한다. 즉, 임의표본 평균들의 중심값과 표준편차를 알면, 모집단에 대한 확률을 구할 수 있다.

 

* 확률은 장기적 관점에서의 확률을 말한다. 99%의 확률이라고 하더라도 1%에 해당하는 값이 최초 100번 중에서 5번 이상 나올 수도 있는 것이다. 하지만, 1만번, 1백만번과 같이 빈도수를 증가하면 실제로 99%의 확률에 가까워진다.

 

9 추론

개의 표본으로는 어떻게 모수를 알아낼 있을까?

표본의 크기, 표본의 평균값, 표준편차,

추정표집편차의 좌우를 잘라서 1표준편차, 2표준편차 안에 평균이 있다고 95%안에서 신뢰한다.

신뢰수준 95%

신뢰구간 모집단 평균이 범위안에 있다는

 

정규분포 모양이 될 정도로 임의표본을 모을 수 있다면, 모집단의 평균을 찾는 것은 쉬울 것이다. 하지만, 실제로 많은 수의 임의표본을 수집하는것은 (거의) 불가능하다. 그래서, 우리는 작은 수의 임의 표본으로부터 모집단에 대한 정보를 알아내야 하는데, 이를 추론이라고 한다.

 

한 개의 임의표본으로 시작한다. 표본의 크기, 평균, 편차를 구하고, 이 값으로부터 정규분포 모양을 갖는 추정표집분포를 그린다. 이 추정표집분포로부터 모집단의 평균 찾기를 시작한다.


예제) EBS영어 100명의 학생이 평균 70, 표준편차 10

추정표집편차 : 영어점수 평균 68~ 72 사이에 있을 것에 95% 신뢰구간을 가진다.

 

10 신뢰구간

 

표본으로부터 정규분포를 갖는 추정표집분포를 구했는데, 이것으로부터 신뢰도를 구하는 것은 매우 쉽다. 단순히 중심값(평균)에서 표준편차의 2배만큼 떨어진 곳의 위치를 구한다. 그러면, 95% 신뢰수준에서 모집단 평균이 (중심값-표준편차*2)에서 (중심값+표준편차*2) 범위 안에 위치한다고 추정할 수 있다. 여기서 중심값에서 표준편차의 2배만큼 떨어진 범위를 신뢰구간이라고 한다. 물론, 표준편차의 3배만큼 떨어진 곳을 신뢰구간으로 잡으면 신뢰수준은 99.7%로 올라간다. 하지만, 구간이 그 만큼 커지기 때문에, 모집단 평균의 근사치가 위치할 수 있는 범위도 커지게된다.

 

어떤 임의 표본으로도 95% 신뢰도를 갖는 신뢰구간을 구할 수 있는데, 95%라는 말은 반대로 5%의 확률로 실제 모집단 평균이 신뢰구간에 포함되지 않을수도 있다는 것을 의미한다. 이는 임의 표본 20개 중 1개는 표본의 신뢰구간안에 모집단 평균이 속하지 않음을 뜻한다. 확률이 100%가 아니기 때문에, 추출한 표본이 모집단 평균에서 완전히 벗어날 수도 있다. 하지만, 실제로 이런 가능성은 매우 적게 일어난다.

 

11 그들은 우리를 미워해

척도 사용하기

표본크기, 표본평균, 표본표준편차

 

12 가설검정

통계적 가설검정

 

가설 검증은 모집단 평균을 찾기 위한 또 다른 방법으로, 가설이 얼마나 맞을지 여부를 임의표본을 이용해서 추측하는 것이다. 과정은 이렇다.

 

  1. 가설을 세운다. (영가설/귀무가설, null hyphothesis)
  2. 임의표본을 채집하고, 임의표본의 평균, 표준편차를 구한다.
  3. 가설의 평균과 임의표본의 표준편차를 사용해서 가설용 정규분포를 만든다.
  4. 가설용 정규분포를 기준으로 임의표본 평균이 포함될 확률값(p값)을 구한다.
  5. 그 확률값이 5%(0.05) 미만이면 가설이 틀렸을 가능성이 높다고 판단, 즉 영가설을 기각한다.

 

13 격렬한 대립

앞서 말한 가설을 통계에서 영(null)가설이라고 부른다. 영가설을 기준으로 표본이 나올 확률이 5% 미만이면 영가설이 틀릴 가능성이 95%이므로 영가설을 기각한다. 13장에서는 이의 활용 예를 보여준다.

 

책에서 나오는 예제 중 하나는 기계가 고장 나서 새제품을 사야 할지 여부를 결정하는데 가설검증을 사용하고 있다. 이 예에서는 제품을 생산할 때 평균적으로 제품마다 0.25그램의 원료를 넣는 기계를 사용한다. 그런데, 효과가 약해졌다는 고객들의 항의가 들어오고, 너무 많은 원료가 들어가 있다는 신고도 들어오고 있는 상황이다.

 

그래서 기계가 이상이 있는지 여부를 판단하고 기계를 바꿔야 할지 여부를 결정해야 한다.

 

여기서 영가설은 아래와 같다.

  • 기계는 고장나지 않았다. 즉, 평균적으로 0.25그램의 원료를 잘 넣고 있다.

영가설이 맞는지 확인하기 위해 임의로 80개의 제품을 채집해 조사했다. 조사 결과 표본평균은 0.14그램, 표본표준편차는 0.46이 나왔다. 이 수치를 바탕으로 p 값을 구했더니 0.03이나왔다. 이는 5% 미만이니까, 영가설을 기각한다. 즉, 기계가 고장났을 가능성이 높은 것이다. 물론 이는 기계가 고장나지 않았을 가능성 또한 3% 있다는 것을 기억해야 한다.

 

 


다른 시험에서는 이부분이 1과목보다 어렵다고 하였는데
이번 저희 18회는 2과목이 더 쉬웠던거 같은건
저만의 느낌일까요?
전 우선 다 맞은거 같은데...
이것도 나중에 답이 나와봐야 정확히 알 수 있을꺼같습니다.


객관식1. 데이터 거버넌스 메타데이터 구축/표준용어 설정/명명규칙 수립등을 하는 것은?
정답 : 데이터 표준화
3-2의 제 2절에 나와있어요.
데이터 거버넌스 구성요소(원칙, 조직, 프로세스)랑 흐름을 알아두면 좋은데
예전 복원에는 저장소관리가 나왔었어요. 저장소 관리는 워크플러우 및 관리용 응용 소프트웨어 지원 이라고
데이터 표준화는 표준용어설정, 명명규칙 등이 중요한 거라 순서를 보고 가시면 좋을 것 같아요.

객관식2. 하양식 문제 탐색 단계에 대한 설명이 아닌것은?
정답 :  유스케이스 활용보다 새로운 이유탐색이 우선
3-1의 제 2절에서 하양식 방식에서
비즈니스 모델 기반 문제탐색, 분석 유즈케이스 정의 등이 함께 나왔습니다.

객관식3.  과제 우선순위 결정 내용중 부적절한 것은?
정답 :  Value(가치)는 투자비용 요소이다.
3-2 제 1절의 가장 중요한 부분이죠
우선순위 설정의 전략적 중요도, ROI, 실행용이성은 백프로 매번 나와요
가치는 투자비용이 아니라 비즈니스 적 요소에요! 이부분도 진짜 매번 나오는데
두개가 이번에 겹쳐서 나왔어요.

객관식4. 분석 기획 고려사항 중 장애요소에 대한 부적절한 설명은?
정답 : 이해하기 쉬운 모델보다는 복잡하고 정교한 모형이 더 효과적이다
3-1의 제 1절에서 분석 기획 시 고려사항에서
가용한 데이터, 장애요소 해결과 더불어 적절한 유스케이스를 사용하는게 중요하다고 나와요
바퀴를 재발명하지 마라라는게 핵심이에요
저가항공사 예시를 들어서 단순화된 분석이 더 높은 효율을 냈다 라는부분에서 이게 답인거 같아요.

객관식5. 분석 대상은 모르나, 기존 분석방식이 활용할 경우는? 그리고 대상을 아에 새로 선정할 것은?
정답 : 통찰-발견
3-1의 제 1절 분석 기획 방향성 도출에서 분석대상에 관한 설명이었습니다.
이부분의 최적화, 솔루션, 통찰, 발견은 꼭 외워야하고 매번 나오는 문제에요
근데 그중에서도 통찰은 항상 나오는거 같아요, 객관식 주관식 전부 나오는거 같아요
꼭! 기억해야해용

객관식6. 분석 과제 수행시 고려하는 5요소가 아닌것은?
정답 : 데이터 분석 방법(Method)
3-1 제4절의 분석 프로젝트 관리 방안이에요
이부분의 5개는 자주나오는데 꼭 기억해야해요
데이터 사이즈, 데이터 복잡도, 스피드, 정확도와 복잡도, 정확도와 편차수준

객관식7. 정형 - 반정형 - 비정형 데이터 순서로 된 것은?
정답 : Demand Forecast - Competitor pricing - Email recode
이건... 찍었는데 맞은거 같아요. 수욕예측과 이메일 레코드는 확실해서
정형, 반정형, 비정형 문제는 변별력으로 상급 문제인데
찍은게 잘 맞은... 그런 느낌적인 느낌? ㅋㅋㅋㅋ

객관식8. 프로토 타이핑의 내용으로 적절한 것은?
정답 : 신속하게 해결책 모형 제시, 문제 좀 더 명확하게 인식, 식별
상향식 접근 방법 중 하나에요.
빠르고, 결과를 반복하고 개선하는거, 완전하지 못해도 해결책을 제시하는 모형이면 백프로 프로토타입 모델이에요
필요성도 중요해요 (문제에 대한 인식수준, 필요데이터 존재여부의 불확실성, 데이터 사용 목적의 가변성)

주관식 1. 문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 단계화 되어 수행하는 방식
정답 :  하향식 접근 방식
3-1의 3절 분석과제발굴에 있습니다.
하양식에 대한 설명이 객관식 2번 문제에 나와서 설마 또 ? 아에 답을 알려준게 나오나? 고민했던 문제에요 ㅋㅋㅋ
의외로 문제를 보다보면 겹치는 부분이 있어서 객관식 보기의 정답이 주관식 답이 되는 경우가 있나봐요
SQLD에서도 그런적이 있어요.

주관식 2. 데이터 분석 방법론, 머신러닝을 이용한 수행모델을 만들거나 데이터 분할 하는 부분은?
정답 : 모델링 
이것도 항상 데이터 분석 부분의 모델링이 제일 많이 나오는거같아요
이 부분에서는 알고리즘 설명서를 작성하고 의사코드 수준의 상세한 작성 필요까지 외워두면 좋을꺼같아요.


전반적으로 3-1이 더 많이 나온거 같아요 3-2절의 훨씬 문제 낼 곳이 많은데 ㅋㅋㅋ

그리고 원래도 3-2가 많이 나오는데

이번에는 3-1이 나오고 좀 쉬운 부분, 명확하게 공부해야하는 부분만 나온거 같아요

내 머리속의 기억이 더 없어지기 전에

문제를 복원해 보려고 합니다.

100% 정답은 아니니 계속해서 수정해나갈게요

중요한 부분보다는 사이사이 표 내부의 내용이 많이 나왔어요

어렵지는 않았지만 헷갈릴 부분이 많았어요
전 객3, 주2 틀렸어요 ㅋㅋㅋ
이 정답이 다 맞다면 제가 이부분에서는 16/20 이겠죠?
나중에 결과 나오면 같이 보여드릴게요!


객관식1. 빅데이터 출현 배경 설명으로 부적절한 것은? 
정답 : 데이터 구조의 정형화
1-2의 1절에 출현배경이 있어요
산업계, 학계, 관련기술 이부분 나머지 적절한 설명이었습니다.

객관식2. 통찰력 제공하는 분석 기술 아닌것은?         
정답 : 추출
책에 보면 통찰력과 정보에 따른 차이가 나옵니다.
제 2절 인사이트 도출에서 5번. 데이터 사이언스에 요구되는 인문학적 사고의 특성와 역할 입니다.
추출은 정보이고, 통찰력에 관련한것은 최적화, 모델링, 권고, 시물레이션, 예측 등 나와있습니다.
표를 이해하면 좋을 것 같아요.

객관식3. 가트너가 언급한 데이터 사이언티스트의 역량이 아닌것은?
정답 : 하드스킬
가트너가 말한것은 소프트 스킬이었습니다.
이것도 가이드 내용에 표 안에 삽입된 내용이고
다른 부분보다 카드너가 내용이 중요한거 같아요

객관식4. 내재된 경험을 문서나 매체로 저장하는 과정은? 
정답 : 표출화
1-1 부분에 암묵지와 형식지가 있는데
암묵지는 공통화, 내면화이고
형식지는 표출화, 연결화 입니다.
그래서 암묵지를 형식지로 변경하는 과정을 표현화, 표출화라고 하여 표출화를 선택했습니다.

객관식5. 빅데이터 시험 위험 요소가 아닌것은? 
정답 : 익명화
1-2의 4절 위기요인에서
사생활침해, 책임원칙훼손, 데이터오용이 원인이에요
이에 따른 통제방안 동의에서 책임으로, 결과기반책임원칙고수, 알고리즘접근허용도 자주 출제되는 문제입니다.
이부분은 한번씩은 꼭 나오는거 같아요

객관식6 인문학 열풍의 이유가 아닌것은? 
정답 : 빅데이터 분석 기법 및 방법론의 확대
1-3의 2절에 전략 인사이트 도출을 위해 필요한 역량 부분에서
사회경제적 변화 부분에 아래부분은 맞는거 위에 답은 적절하지 않은 것으로 나왔어요.
1)단순환 세계화에서 복잡한 세계화
2)제품생산에서 고객가치, 서비스이동
3)산업이 생산에서 시장창조로 변경

객관식7 데이터 사이언스에 대한 설명이 부적절한 것은?
정답 : 통계학이 더 많은 유형의 데이터를 근간으로 한다
전반적인 데이터 사이언스에 대한 질문으로 나왔어요.
예를 들어, 호기심이 높아야한다. 인문학적 성향이 있어야 한다 등등
통계학을 포함한 것이지 통계학이 더 좋은 것은 아니에요. 이런 부분은 항상 답입니다 ㅋㅋ

객관식8 DIKW내용 중 내용이 다른 하나는?
정답 : 매출액은 3000만원으로 예상된다
1-1의 데이터와 정보 관계에 있습니다.
나머지 보기는 전부 데이터 였어요.
기본적인 이건 얼마다. 가격이 얼마다 정도입니다.
예시니까 잘 고민해보고 답끼리 비교하면 쉽게 찾을 수 있어요

주관식1. 문제에 대하여 원인과 결과에 대한 것과 신속한 의사결정이 필요하면서 변경된 것
정답 :  A: 인과관계 B: 상관관계
1-2의 1절 부분 중 본질적인 변화
사전이 사후처리로, 표본조사가 전수조사로, 질보다 양으로, 인과관계가 상관관계로
변화하는 것들이 중요한 것이고 이에 대한 정보에 빈칸 퉁퉁 뚫어 나왔습니다.
처음에는 엄청 당황했는데 읽고보니 인과관계, 상관관계 였어요 

주관식2.페이스북, os플랫폼, API사용 관련 본문내용 제시
정답 : 플랫폼
하아... 빅데이터 기능이라고 1-2부분의 내용인데
저는 렌즈내용만 너무 열심히 봤었나봐요
이거 다들 맞추셨던데 저만 틀린 느낌? ㅋㅋㅋ 쉬운 문제였다고 하셨어요
저는 연결이라고 데이터, 연결, 에이전시 그건줄 알았는데 아니었더라구요
책을 꼼꼼히 읽어보시는걸 추천드립니다.





너무 늦은 후기가 아닐지 고민되지만

지금아니면 다음은 더 늦기에 오늘 마음먹고 하는 후기입니다. 



공부기간

1. 데이터 모델링의 이해

이 부분은 거의 암기입니다. 

저는 암기보다는 5~10회 완독을 여러번 하는 것을 추천드려요. 

그리고 주요 단어만 선별해서 재 정리하시면 이부분은 어렵지 않게 통과할 수 있습니다.

(물론 알죠, 읽기 힘들고, 이해하기 힘들고, 빡세고... 시간이 없고... 공부하려면 자꾸 다른 생각이 나는거...)

저는 이부분은 처음 정리 한번 하고, 꾸준히 아침, 저녁 지하철에서 읽고 다녔어요

그러니까 시험 당일 아침에 한번 훑어만 봐도 되는거라 부담은 없었습니다.


2. SQL 기본 및 활용

저는 SQL, 오라클 수업을 한달 들었기 때문에 직접 cmd창에서 작성해 본 경험이 있어서 그런지

SQL을 이해하는 것에 큰 무리가 없었어요.

기본적으로 DDL, DML, DCL, TCL에 대하여 한번씩은 컴퓨터로 작성해보고 결과 보시면 좋을꺼같아요

오류를 내면서 배우는 것이 가장 정석적인 방법입니다.

저는 왜 그리 오타를 많이 치는지 항상 ...slec치고 다시 지우고 select라고 한자한자 치던 ㅋㅋㅋㅋ


만약 시간이 없으시다면 내용에 관련하여 이해하는게 중요하다고 생각합니다.

아마 처음 사용하시는 분들은 어떻게 조인이 되는지, 검색 결과나오는지 보지 않아서 어려울 수 있을텐데

SQL 수식을 여러번 보다보면 어려움 없을꺼에요

컴퓨터가 어려우면 손으로라도 한번씩 써보시는 것을 꼭 추천드립니다.

조인, 서브쿼리, 정렬 등등의 부가적 옵션 활용도 꼭 보셔야해요!


웹으로 SQL 실습할 수 있는 곳 입니다. 한번씩 작성해보시면 도움 되실꺼같아요!

https://www.w3schools.com/sql/default.asp



시험관련 정보

1. 통과기준

↓ 아래의 홈페이지에 자세히 나와있어요!

http://www.dbguide.net/da.db?cmd=snb_sqld_1


우선 전체 100점 만점 중 60점을 넘는게 중요하고

두번째는 과목별 40% 넘어야 합니다. 

이말인 즉, 

데이터의 이해부분은 20점 만점중 20*0.4 = 8점 이상이여야하고

SQL 부분은 80점 만점 중 80*0.4 = 32점 이상이여야 합니다.


두가지 조건을 전부 통과해야 합격이 가능합니다.

저는 처음에 40%조건이 상대평가인줄 알고... 덜덜덜 떨었어요

다들 저 시험이 시웠다고해서 사람들이 다 잘본줄알고 혹시 내가 40% 미만이면 어쩌지? 했는데

그게 아니더라구요 ㅋㅋㅋㅋㅋㅋ 역시 사람을 글을 잘 이해해야 심신이 편한거 같아요 ㅋㅋㅋㅋ


2. 교재


기본적으로 SQL 가이드를 참고하셔야 합니다.

서점에가서 구매하셔도 되고, 옥션이나 다른 온라인 사이트를 통해 구매하시면 좀 더 저렴하다고 알고있습니다.

하지만 전 아래의 사이트에서만 보고 따로 구매하진 않았어요!

http://www.dbguide.net/db.db?cmd=view&boardUid=148404&boardConfigUid=9&categoryUid=216&boardIdx=132&boardStep=1


대신, 문제집이 없어서 아래의 책을 구매했습니다.

한국데이터진흥원에서 출간한 책인 부분이 매우 중요합니다.

왜냐면 이 곳에서 시험 주관하니까요!! 어느정도 문제의 수준인지 확인 가능합니다.

이제 이 자격증이 중요해져서 그런지 다른 책들도 많이 나오는데

저는 위의 인터넷 사이트의 기본 개요 + SQL 실전문제 이 두 부분만 보셔도 충분하다 생각합니다.



3. 복원기출문제

복원된 기출 문제에 대해서 저는 아래의 카페 도움을 매우 아주 많이많이 받았습니다.

가입하셔서 공지사항 보시면 그동안의 기출 복원도 있고

제가 본 시험 뿐만 아니라 다른 횟차의 시험도 복원되어있습니다.

https://cafe.naver.com/sqlpd


여기 스터디도 같이 하는데 시간이 여유있으시다면 스터디 참가하셔서 정보 공유도 받고 하시면 

더더욱 좋을꺼같아요


기타 사항으로...

항상 동국대인거같아요

1시에 시험보는데, 12시 30분까지 입실이라고 하지만 12시 50분쯤 오시는 분들도 꽤 많아요 ㅋㅋㅋ

만약, 동대입구역에서 먼저와서 공부하겠다 하시면 좀 일찍 가셔서 동대입구 스타벅스 추천해요

하지만 사람이 엄청 많아서 단체 스터디 하는 기분이지만 ㅋㅋㅋ 거기가 제일 공부하기 좋아요

주차도 가능하다고 하는데 전 차를 가져가진 않아서 확인해보시면 좋을꺼같아요


준비물은 컴퓨터용 사인펜과 볼펜인데

컴퓨터용 싸인펜 없으면 시험장에서 주세요. 그러니까 1층에서 구매하실 필요 없어요

동국대 매점에서는 300원인가 ? 팔았는데

1층 어머님은... 천원에 파시더라구요...

근데 시험장 가니까 공짜로 줬어요 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ


신분증이랑 수험표 꼭 챙겨가세요!


궁금하신점 댓글로 남겨주심 답변드릴게용^^



시험 보시는 모든 분들께

합격 되길

기도합니다 파이팅!



'자격증 공방 > SQLD' 카테고리의 다른 글

별첨) SQL 정규화 방법  (0) 2018.07.17
제 5-3절 조인 수행 원리  (0) 2018.07.17
제 5-2절 인덱스 기본  (0) 2018.07.17
제 5-1절 옵티마이저와 실행계획  (0) 2018.07.17
제 4-8장 절차형 SQL  (0) 2018.07.11

1 데이터 마이닝 개요

 

데이터 마이닝 : 데이터 베이스에서의 지식 발견

거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정 (창문-도둑)

원천 데이터 기반으로 감춰진 지식, 기대못한 경향, 새로운 규칙 발견 의사결정의 유용한 정보 활용

= 지식추출, 정보수확, 정보 고고학, 데이터 패턴 프로세싱

 

1. 분류

새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는

정의된 분류기분과 분류 되어진 검증 집합에 의해 완성 다른 현상들 분류 있음

의사결정나무, memory-based reasoning, link analysis

 

2. 추정

연속된 변수 값을 추정, 주어진 입력 데이터를 사용하여 알려지지 않은 결과이 값을 추정

부모가 있는 어린이의 , 가정구성원의 수입, 고객의 평생가치

신경망 모형

 

3. 예측

미래의 양상을 예측하거나 미래의 값을 추정하는 , 정확성을 있는 방법은 기다리고 지켜보는

입력된 데이터의 성격에 따라 기술의 사용이 달라짐

장바구니 분석(연관분석), memory-based reasoning, 의사결정나무, 신경망

 

4. 연관분석

같이 팔리는 물건과 같이 아이템의 연관성을 파악하는 분석

소매점 배열계획, 카탈로그 배열 교차판매, 공격적 판촉행사 등의 마케팅 계획

장바구니 분석 결과

 

5. 군집

이질적인 모집단을 동질성을 지닌 그룹 별로 세분화하는 것을 의미

군집은 선분류의 기준을 의존 하지 않음(분류와의 차이점)

데이터 마이닝, 모델링의 준비단계 → 고객 세분화

 

6. 기술

데이터가 가진 의미를 단순하게 기술하는 , 설명하는 , 설명에 대한 답을 찾아낼 있음

연구주제 제공, 장바구니 분석 규칙 기술

 

데이터 마이닝 수행 5단계

. 목적정의

데이터 마이닝의 목적을 정의 하는 단계, 이해관계자가 모두 동의하고 이해함에 따라 가능, 전문가 참여

. 데이터 준비

마이닝 수행에 필요한 데이터를 수집하는 단계, IT부서와 사전 협의 필요(접근 부하 문제)

데이터 정제를 통해 품질 보장, 보강작업 거쳐 데이터 양을 충분히 확보

. 데이터 가공

모델링 목적에 따라 목적 변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어 적용하도록 가공

적절한 데이터 가공 충분한 CPU 메모리, 디스크 공간 개발 환경의 구축이 선행

. 데이터마이닝 기법의 적용

목적하는 정보를 추출, 기법은 1단계에서 미리 결정해야함, 데이터 분석 전문가의 전문성 필요

목적이 무엇이고, 어떤 데이터를 갖고 있고, 산출되는 정보가 무엇인가에 따른 적절한 소프트웨어 기법 선정

. 검증

테스트 마케팅이나 과거 데이터 활용 (차이점 구분해야함)

자동화 방안, IT 부서와의 협의 → 결과를 업무에 적용 보고서 작성을 통한 기대효과 보고

 

2 분류 분석

 

분류분석 : 반응변수(종속변수) 알려진 다변량 자료를 이용하여 모형 구축, 새로운 자료에 대한 예측, 분류 수행

- 반응변수가 범주형이면 새로운 자료에 대한 분류가 목적

- 반응변수가 연속형이면 값을 예측하는 것이 목적

로지스틱 회귀모형, 신경망모형, 의사결정나무모형, 앙상블모형, 규칙기반분류, 사례기반분류, 인접이웃분류모형

베이즈분류모형, 서포트벡터기계, 유전자 알고리즘 등등

 

1. 로지스틱 회귀모형

반응변수가 범주형

새로운 설명변수(예측변수) 값이 주어질 반응 변수의 범주에 속할 확률이 얼마 인지 추정(예측 모형)

추정 확률을 기준치에 따라 분류하는 목적으로 사용(분류모형)

모형의 적합을 통해 추정된 확률을 사후확률이라 부름

 

오즈(odds)관점에서 해석할 있는 장점 : 1단위 증가 때마다 성공의 오즈가 증가하는 나타냄

 

1) 설명 변수가 한 개인 경우 회귀계수 부호에 따라  양수면 S 또는 음수면 S 모양을 가진다.

2) 누적분포함수로 성공의 확률을 설명(추정) 있음

프로빗 : 표준정규분포의 누적함수를 성공의 확률로 모형화한 유사한 모형

 

기준값에 따라서 집단을 나누게

분류 기준값의 결정은 사전정보 또는 손실함수 사용하거나 정분류율, 민감도, 특이도 동시 고려함

 

glm()함수 : 예측 변수가 1

glm(반응변수 ~ 설명변수, 데이터세트, family=binomial)

 

> a <- subset(iris, Species=="setosa" | Species =="versicolor")
> a$Species<-factor(a$Species)
> b<-glm(Species~Sepal.Length, data=a, family = binomial)
> summary(b)

Call:
glm(formula = Species ~ Sepal.Length, family = binomial, data = a)

Deviance Residuals:
     Min        1Q    Median        3Q       Max 
-2.05501  -0.47395  -0.02829   0.39788   2.32915 

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)   -27.831      5.434  -5.122 3.02e-07 ***
Sepal.Length    5.140      1.007   5.107 3.28e-07 ***
---
Signif. codes: 
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  64.211  on 98  degrees of freedom
AIC: 68.211

Number of Fisher Scoring iterations: 6

 

→ p-value 값이 0 가까움으로 매우 유의한 변수,  Sepal.Length 1단위 증가에 다른 오즈는 170

> exp(coef(b)["Sepal.Length"])
Sepal.Length
    170.7732

→ Null deviance 절편만 포함하는 모형의 완전 모형으로의 이탈도 귀무가설 성립에 따른 모형

→ Residual deviance 예측변수가 추가된 적합 모형의 이탈도

> coef(b)
 (Intercept) Sepal.Length
  -27.831451     5.140336

> confint(b, parm="Sepal.Length") # 회귀계수의 신뢰구간
Waiting for profiling to be done...
   2.5 %   97.5 %
3.421613 7.415508
> exp(confint(b, parm="Sepal.Length")) #오즈의 신뢰구간
Waiting for profiling to be done...
     2.5 %     97.5 %
  30.61878 1661.55385

> fitted(b)[c(1:5, 96:100)] #적합 결과 확인
         1          2          3          4
0.16579367 0.06637193 0.02479825 0.01498061
         5         96         97         98
0.10623680 0.81282396 0.81282396 0.98268360
        99        100
0.16579367 0.81282396

> predict(b, newdata=a[c(1,50,51,100),], type="response") #예측값
        1        50        51       100
0.1657937 0.1062368 0.9997116 0.8128240

> cdplot(Species~Sepal.Length, data=a) #범주형 변수의 조건부 분포, 커짐에 따라 versicolor 확률 증가

 

다중회귀분석

> attach(mtcars)
> glm.vs <- glm(vs~mpg+am, data=mtcars, family = binomial)
#vs 반응변수, mpg, am 예측변수
> summary(glm.vs)

Call:
glm(formula = vs ~ mpg + am, family = binomial, data = mtcars)

Deviance Residuals:
     Min        1Q    Median        3Q       Max 
-2.05888  -0.44544  -0.08765   0.33335   1.68405 

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -12.7051     4.6252  -2.747  0.00602 **
mpg           0.6809     0.2524   2.698  0.00697 **
am           -3.0073     1.5995  -1.880  0.06009 .
---
Signif. codes: 
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 43.860  on 31  degrees of freedom
Residual deviance: 20.646  on 29  degrees of freedom
AIC: 26.646

Number of Fisher Scoring iterations: 6

 

→ mpg 단위 증가함에 vs 1 오즈는 1.98 증가 98%증가

> exp(0.6809)
[1] 1.975655

→ am 단위 증가함에 vs 1 오즈는  0.05 증가, mpg 비해 95% 감소

> exp(-3.0073)
[1] 0.04942495

 

> anova(glm.vs, test="Chisq") #모형이 적합이 단계별로 이탈도의 감소량과 유의성 검정 결과 제시
Analysis of Deviance Table

Model: binomial, link: logit

Response: vs

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev  Pr(>Chi)   
NULL                    31     43.860             
mpg   1   18.327        30     25.533 1.861e-05 ***
am    1    4.887        29     20.646   0.02706 * 
---
Signif. codes: 
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> 1-pchisq(18.327, 1)
[1] 1.860515e-05
> 1-pchisq(4.887, 1)
[1] 0.02705967

 

 

2. 신경망 모형

인공신경망 동물의 뇌신경계 모방하여 분류, 예측 위해 만들어진 모형

입력은 스냅스에 해당, 신경돌기 처럼 개별신호의 가중도에 따라 가중되며, 활성함수는 인공신경망의 출력 계산

많은 데이터에 대한 학습을 거쳐 오차가 작아지는 방향으로 가중치 조정

 

단층신경망 = 퍼셉트론

입력층이 직접 출력되는, 은닉층이 없는 단층신경망

 


- z값에 대한 활성함수 적용되어 y(x) 계산

- w : 가중치, 의사결정 경계의 방향 나타내는 모수

-  : 절편, 의사결정 경계의 위치를 결정하는 모수

가중치와 절편은 학습을 통해 오차제곱합이 최소가 되는 방향으로 갱신

최종 목표값은 y=y(x) z 대해 비선형 활성함수를 적용하여 구해짐

- 활성함수 종류

부호 또는 threshold함수, 계단함수, 시그모이드함수, Sofrmax함수, tanh함수, 가우스함수

 

nnet패키지의 nnet함수 이용

초기값을 정해지주지 않으면 결과가 항상 변경됨

시각화를 위한 plot.nnet() 함수 사용 - url소스 다운로드/3 패키지 인스톨(clusterGeneration, scales, reshape)

선의 굵기는 연결선의 가중치의 비례함

 

neuralnet패키지의 neuralrnet 함수 이용

역전파 알고리즘 통해 모형을 수행

일반 가중치는 다른 모든 공변량의 의존함으로 자료의 국소적인 기여도

특정 공변향의 효과가 선형적인지 여부 파악,

작은 분산은 선형효과 제시, 큰분산은 공간상 변화가 심한 -선형적인 효과 나타냄

분산을 가진 입력변수들로만 신경망 모형에 적합, 선형적인 것은 결과의 영향을 미치지 않음

 

compute( ) 함수 : 뉴런의 출력값 계산

confidence.interval() 함수 : 가중치들에 대한 신뢰구간

정오분류표 확인하기

 

다층신경망 = 다층퍼셉트론

은닉층을 가지고 있고 입력베터 x 출력벡터y(x) 맵핑하는

다층신경망의 가중치는 학습과정에서의 오차의 역전파 알고리즘을 통해 갱신


 

은닉수 결정에 따른 고려사항

- 다층신경망은 단층신경망에 비해 훈련이 어렵다

- 시그모이드 활성함수를 가지는 2 층의 네트워크(1 은닉층) 임의의 의사결정 경계를 모형화 할수있다.

 

층의 노드 수의 결정에 따른 고려사항

- 출력층 노드의 수는 출력 범주의 수로 결정한다.

- 입력의 수는 입력 차원의 수로 결정한다

- 은닉층 노드의 수는 너무 적으면 네트워크가 복잡한 의사결정 경계를 만들수 없고,

  너무 많으면 네트워크의 일반화가 어렵다.

 

 

장점

- 변수의 수가 많거나 , 출력 변수 간에 복잡한 비선형 관계가 존재할 유용

- 잡음에 대해서도 민감하게 반응하지 않음

단점

- 결과에 대한 해석이 쉽지 않음

- 은닉층의 수와 은닉노드 수의 결정이 어려움

- 초기값에 따라 전역해가 아닌 지역해로 수렴 가능

- 모형이 복잡하면 훈련과정에 시간이 많이 소요 있음

 

3. 의사결정나무 모형

 

의사결정나무란?

전체 자료를 개의 소집단으로 분류하거나 예측을 수행하는 분석방법

상위 하위로 나무 구조 형성하는데 단계마다 분류변수와 분류기준값의 선택이 중요

상위 노드 : 분류변수, 분류기준값이 기준에 의해 분기됨

하위 노드 : 노드내는 동질성이 노드간에는 이질성이 커지도록 선택

과대적합(과소적합) 되지 않도록 합리적인 기준에 의해 적당히 조절

 

개념

뿌리마디 : 맨위의 마디, 분류(예측)대상이 되는 모든 자료의 집단

상위마디 : 부모마디

하위마디 : 자식마디

최종마디 : 이상 분기되지 않는 마디

가지 분할 : 나무 가지를 생성하는 과정

가지치기 : 생성된 가지를 잘라내어 모형을 단순화 하는 과정

 

분류변수과 분류기준값 선택방법, 불확실성에 대한 측정지표 :

목표변수가 이산형 분류나무

- 카이제곱 통계량의 p- : 값이 작을 수록 노드 내의 이질성, 불확실성이 , 값이 커지는 방향 수행

- 지니계수, 엔트로피 지수 : 값이 클수록 노드 내의 이질성이 , 값이 작아지는 방향 수행

지니계수가 클수록 이질적이며, 순수도가 낮다고

 

목표변수가 연속형 회귀나무

- F-통계량의 p- : 값이 클수록 오차의 변동에 비해 처리의 변동이 , 자식 노드간이 이질적임,

처리변동이 커지는 방향, p-값은 작아지는 방향으로 수행

- 분산의 감소량 : 최대화 되는 방향으로 가지분할 수행

 

분석과정

1단계 : 목표변수와 관계 있는 설명변수를 선택

2단계 : 분석목적과 자료구조에 따라 적절한 분리기준과 정지규칙을 정하여 의사결정나무 생성

3단계 : 부적절한 나뭇가지는 제거 : 가지치기

4단계 : 이익, 위험, 비용 등을 고려한 모형평가

5단계 : 분류 예측

 

알고리즘과 분류 기분의 선택법

 

이산형 목표변수

연속형 목표변수

CHAID(다지분할)

카이제곱 통계량

ANOVA F-통계량

CART(이진분할)

지니지수

분산감소량

C4.5

엔트로피지수

 

 

rpart 패키지의 rpart( ) 함수 이용

rpart.plot 이용하여 의사결정나무 모형 시각화 가능

 

party 패키지의 ctree() 함수 이용

 

장점

- 구조가 단순하고 해석이 용이

- 유용한 입력변수의 파악과 예측 변수간의 상호작용

- 비선형을 고려한 분석 수행

- 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형

단점

- 분류기준값의 경계선 근방의 자료값에 대해서는 오차가 있음(비연속성)

- 예측변수의 효과를 파악하기 어려움

- 새로운 자료에 대한 예측이 불안정

 

사용 예시

시장조사, 광고조사, 의학연구, 품질관리,

고객 타겟팅, 고객 신용점수화, 캠페인 반응 분석, 고객행동예측, 고객세분화

 

4. 앙상블 모형

여러 개의 분류모형에 의한 결과를 종합적으로 분류하여 정확도를 높이는 방법

적절한 표본추출법으로 데이터에서 여러 훈련용 데이터 집합을 만들고

각각의 데이터 집합에서 하나의 분류기를 만들어 앙상블하는 기법

 

1) 배깅

bootstrap aggregation 준말

데이터 집합으로부터 크기가 같은 표본을 여러 단순 임의 복원추출하여

표본(붓스트랩 표본) 대한 분류기를 생성 결과를 앙상블 하는 방법

반복추출방법 : 같은 데이터가 표본에 여러 추출 가능, 어떤 데이터는 아에 추출 안됨

 

adabag 패키지의 bagging 함수

> iris.bagging <- bagging(Species~., data=iris, mfinal = 10)
> iris.bagging$importance
Petal.Length  Petal.Width Sepal.Length  Sepal.Width
    58.27875     41.72125      0.00000      0.00000

 

2) 부스팅

붓스트랩 표본을 구성하는 재표본 과정에서 자료에 동일한 확률 부여하지 않음

분류가 잘못된 데이터에 가중을 주어 표본을 추출

표본 추출하여 분류기 생성 결과에 대한 데이터 추출 확률 조정 표본 재추출

아다부스팅 알고리즘

 

adabag 패키지의 boosting함수

> boo.adabag <- boosting(Species~., data=iris, boos=TRUE, mfinal=10)
> boo.adabag$importance
Petal.Length  Petal.Width Sepal.Length  Sepal.Width
   57.975148    26.183796     3.559308    12.281748

분류의 정확도가 높아짐, 오분류율(error.rpart) 0 값을

ada 패키지의 ada() 함수

- plot() : 오차와 일치도를 나타내는 카파 계수, 훈련용, 검증용 자료 둘다 보여줌

- varplot() : 변수의 중요도

- pairs() : 예측변수의 조합별, maxvar=옵션 통해 변수의 지정 가능

 

 

3) 랜덤포레스트

배깅의 개념과 feature(변수) 임의선택(랜덤과정) 결합

원자료에서 붓스트랩샘플 추출 샘플에 대한 트리 형성 최적분할이 아닌 예측변수 임의 추출

추출된 변수 내에서 최적의 분할을 만들어 나감

새로운 자료에 대한 예측은 분류의 경우 다수결, 회귀의 경우는 평균을 취하는 방법

ploidy패키지에 randomForest() 함수

정오분류표과 함께 오류율에 대한 OOB(out-of-bag)추정치 제공하여 검증 실시

 

importance()와 varlmpPlot()로 변수의 중요성 확인 가능

- 변수로 분할이 일어날 불순도의 감소가 얼마나 일어나는지 나타내는 (불순도 낮음, 순수도 증가)

- 지니계수는 노드의 불순도를 나타내는

- 회귀의 경우는 잔차제곱합

 

party패키기의 cforest()함수

 

5. 모형평가

분류분석 모형 평가 : 예측, 분류를 위해 구축된 모형이 임의의 모형보다 우수한 성과를 보이는지

고려된 서로 다른 모형 어느것이 가장 우수한지 등을 비교

데이터 마이닝 목적, 데이터 특성에 따라 가장 적합한 모형을 선택하기 위한 성과 평가 기준 필요

 

모형평가 기준

- 일반화의 가능성 : 같은 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는

- 효율성 : 얼마나 효과적으로 구축되었는지, 적은 입력변수를 필요로 할수록 효율성 높음

- 예측과 분류의 정확성 : 모형의 정확성 측면 평가, 실제 문제를 적용했을 정확한 결과 내야함

 

전체 자료(원천데이터)

- 훈련용 자료

- 검증용 자료

: 모형의 과적합화 문제 해결하기 위한 단계, 잘못된 가설 2 오류 발생 방지

 

- 홀드아웃방법 : 랜덤하게 분류로 분리 교차검증 실시(70%, 30%)

sample( ) 함수 사용


 

- 교차검증 : 반복적으로 성과 측정, 결과 평균한 것으로 분류분석 모형 평가 방법

k-fold 교차검증 : 전체 데이터를 사이즈가 동일한 k 하부 집합 나누고 k 검증자료로

나머지 k-1개를 훈련용 자료로 k 반복 측정하고 각각이 평균 값을 최종평가


 

- 붓스트랩 : 평가를 반복한다는 측면은 교차검증과 유사하나 훈련용 자료를 반복 재선정함

관측치를 한번 이상 훈련용 자료로 사용하는 복원 추출법에 기반함

0.632 붓스트랩 : d개의 관측치, 선정될 확률 1/d, d 반복할 선정되지 않을 확률 (1-1/d)/d

d 크다고 가정할 때의 확률은 e-1=0.368, 36.8% 관측치 훈련용 집합으로 선정불가

나머지 63.2% 관측치 훈련자료로 사용된다, 전체양이 크지 않은 경우 적합

 

분류모형평가를 위한 범주형 변수에 사용되는 평가지표

 

1) 오분류표

목표변수의 실제범주와 모형에 의해 예측된 분류범주 사이의 관계

 

예측치 TRUE(p)

예측치 FALSE(n)

합계

실제값 TRUE(t)

TP

FN

P

실제값 FALSE(f)

FP

TN

N

합계

P'

N'

P+N

 

- 정분류율 : 전체관측치 실제값과 예측치가 일치하는 정도, 분포가 균형을 이룰 효과적이 평가지표


- 오분류율 : 전체 과측치 실제값과 예측치가 다른 정도, 1-accuracy


대부분의 분석은 대상이 소수 집단에 대한 예측 실패 비용이 다수집단에 대해 크다

범주불균형의 문제 : 중요한 분류 범주만 다룸

- 민감도 : 실제값이 TRUE 관측치 예측치가 적중한 정도


- 특이도 : 실제값이 FALSE 관측치 예측치가 적중한 정도

 

- 정확도 : TRUE 예측한 관측치 실제값이 TRUE 정도


- 재현율 : 실제값이 TRUE 관측치 예측치가 적중한 정도, 모형의 완정성을 평가함, 민감도와 동일


정확도가 높아지면 재현율이 낮아지는 가능성이 높은 관계, 보완을 위해 필요한 F1, 

- F1지표 : 정확도와 재현율의 조화평균, 같은 가중치 부여하여 평균하게

- 지표 : 베타는 양수로 베타 값만큼 재현율에 가중치를 주어 평균

 재현율에 2 가중치,   정확도에 2 가중치

 

caret 패키지의 confusionMatrix() 함수 사용, e1071 명령어 사용

모형 어떤 모형이 정확한지 나타내줌

 

2) ROC그래프

레이더 이미지 분석의 성과 측정위해 개발

분류 분석 모형 비교 분석 결과를 가시화 가능, 밑부분 면적이 넓을 수록 좋은 모형(AUC=1)

x : FP Ratio (1-특이도)

y : 민감도


모델 A 높은 분류 성과 가지는 것으로 평가

Epi 패키지의 ROC() 함수

면적의 넓이를 파악해서 뭐가 높은 성과인지 확인 가능

 

3) 이익도표와 향상도 곡선

이익 : 목표 범주에 속하는 개체들이 등급에 얼마나 분포하고 있는지 나타내는

이익도표 : 해당 등급에 따라 계산된 이익값을 누적으로 연결한 도표

분류된 관측치가 등급별 얼마나 포함되는지 나타내는 도표

 

향상도곡선 : 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 등급별 파악하는 그래프

상위 등급은 향상도가 매우 크고 하위로 갈수록 향상도가 감소되어 예측력이 적절함 의미

등급에 상관없이 향상도에 차이가 없으면 예측력이 좋지 않음

 

ROCR 패키지의 ROC ( ) 함수 이용 : ROC 그래프와 향상도 곡선 함께 나타내줌

 

3 군집 분석

군집분석 : 개체에 대해 관측된 여러 개의 변수 들로부터 n개의 개체를 유사한 성격으로 군집화하고

형성된 굽집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 다변량분석기법

별도의 반응변수 필요없음, 개체간의 유사성에만 기초하여 군집 형성

이상값탐지에도 사용, 심리학, 사회학, 경영학, 생물학 다양한 분야 이용

계층적 군집, 분리군집, 밀도-기반군집, 모형-기반군집, 격자-기반군집, 커널-기반군집, SOM

 

1. 계층적 군집

가장 유사한 개체를 묶어 나가는 과정을 반복, 원하는 개수의 군집을 형성하는 방법

보통 계통도, 덴드로그램의 형태로 결과가 주어짐 개체는 하나의 군집에 포함

개체간의 유사성에 대한 다양한 정의 가능, 연결법에 따라 군집 결과가 다름

 

- 병합적 방법 : 작은 군집을 출발하여 군집을 병합

단계마다 그룹 간의 거리를 계산하여 가까운 순으로 병합 수행, 개가 남을 까지 계속

그룹 혹은 항목의 상대적 거리가 가까울수록 유사성이 높음

 hclust{stats}{cluster} 패키지의 agnes(), mclust() 함수

dist()는 거리(또는 비유사성)행렬을 제공하는 함수

- method= 옵션에는 "euclidean", "maximum", "manhattan", "binary", "minkowski"

hclust(method= 옵션에는 "ward", "single" , "complete", "average", "centroid" )

cutree() : 군집 결과를 이용 트리의 높이나 그룹 수를 옵션으로 지정하여 원하는 그룹으로 나눔

agnes( metric=거리공식)

daisy( ) : 데이터 관측치 사이의 거리 계산, 자료의 형태가 수치 형일 필요 없음


 

- 분할적 방법 : 군집을 분리해나감

 {cluster} 패키지의 diana( ), mona( ) 함수

 

- 덴드로그램

구조적 관계를 쉽게 파악, 항목간의 거리, 군집간의 거리 있고 유사성 정도 파악 가능 견고성 해석가능


 

거리 측정 방법

1) 최단연결법, 단일연결법

군집 사이의 거리를 하나씩 관측값에서 나타나는 최소의 거리값

사슬 모향으로 생기고, 고립된 군집을 찾는데 중점을 방벙

2) 최장연결법, 완전연결법

군집 사이의 거리를 하나씩 관측값에서 나타나는 최대의 거리값

같은 군집에 속하는 관측치는 알려진 최대 거리보다 짧고, 내부 응집성에 중점을 방법

3) 중심연결법

군집의 중심간의 거리 측정, 결합시 새로운 군집의 평균은 가중 평균을 통해 구함

4) 평균연결법

모든 항목에 대한 거리 평균을 구하고 군집화 하기 때문에 계산량이 불필요하게 많음

5) 와드연결법

군집내의 오차제곱합에 기초하여 군집 수행 (거리 기반 아님)

군집이 합해지면 병합된 군집의 오차제곱합은 병합 이전의 군집보다 커지게

증가향이 가장 작아지는 방향으로 군집을 형성해나가는 방법

크기가 비슷한 군집끼리 병합하는 경향


 

 

거리 기반 공식

- 수학적 거리 : 유클리드 거리, 맨하튼 또는 시가 거리, 민코우스키 거리,

- 통계적 거리 : 표준화 거리(변수 측정단위 표준화), 마할라노비스 거리(변수간 상관성 고려)

- 체비세프거리, 켄버라거리, 유사성측도 코사인거리, 상관계수

 

명목형 자료에 대한 거리 유사성 측도 : 단순일치계수, 자카드계수

순서형 자료에 대한 순위상관계수

유사성과 거리는 반대 개념임을 유의

 

특징

- 단계에서 지역적 최적화를 수행해 나가는 방법 사용 결과가 전역적인 최적해가 아님

- 병합적 방법에서 한번 군집이 형성되면 군집에 속한 개체는 다른 군집으로 이동할 수가 없음

- 중심연결법, 와드연결법 등에서는 군집의 크기에 가중을 두어 병합함으로 크기가 군집과의 병합 유도

 

2. k-평균 군집

원하는 군집 수만큼(k) 초기값 지정

개체(데이터) 가까운 초기값에 할당하여 군집 형성

군집의 평균을 재계산하여 초기값갱신

갱신된 답에 대해 위의 할당화 과정을 반복하여 k개의 최종 군집 형성

 

알고리즘

1단계 : 초기 (군집의) 중심으로 k개의 객체를 임의로 선택한다.

2단계 : 자료를 가장 가까운 군집 중심에 할당한다.

    군집의 중심점(평균)으로부터 오차제곱합이 최소가 되도록 자료를 할당하는 과정

3단계 : 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신하다.

4단계 : 군집 중심의 변화가 거의 없을 (또는 최대 반복수)까지 2,3단계 반복한다.

 


 

특징 장점

군집의 수는 미리 정해줘야

초기 중심값은 임의로 선택 또는 무작위로 선택, 멀리 떨어져 있어야함, 초기값에 따라 결과 변화

탐욕적 알고리즘 : 군집 중심으로부터의 오차제곱합을 최소화 하는 방향으로 군집 형성(부분최적화)

안정된 군집 보장하나 최적을 보장하지 못함

단순하고 빨라서 계층적군집보다 많은 양의 자료 가능

거리 계산에 기반함으로 모든 변수가 연속적이야함

 

단점

- 잡음이나 이상값에 영향을 받음

- 볼록한 형태가 아닌 u형태 군집일 경우 성능이 떨어짐

 

이상값에 민감한 단점 보완

- k-중앙값 군집 pam( ) 함수 이용,  {flexclust} 의 kcca( ) 함수

- 수행전에 탐색적 자료 분석을 통한 이상값 제거

 

kmeans( ) 함수 사용

nstart = 옵션 25 추천, 다중의 초기값에 대한 군집 수행

set.seed( ) 초기값에 따라 결과 변경을 없애기 위해 난수 고정

scale( ) 함수 : 단위 표준화

wssplot( ) : 군집수 설정 함수

k - 평균군집 : kmeans {stats}, kcca {flexclust}, cclust{flexclust} , cclust{cclust}, Kmeans {amap}

k - 중앙값군집 : pam( ) 함수를 통해 수행할 수 있다. pam은 partitioning around medoids

 

군집 결정 방법

- Nbclust 통한 적절한 군집 수에 대한 정보 얻음

- 군집수에 따른 집단 제곱합 그래프

 

3. 혼합 분포 군집

모형-기반 군집방법

데이터가 k개의 모수적모형(정규분포, 다변량 정규분포 가정) 가중합으로 표현되는 모집단 모형으로부터

모수와 함께 가중치를 자료로 추정하는 방법 사용

추정된 k개의 모형 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류

모수와 가중치의 추정(최대가능도추정)에는 EM알고리즘 사용

 


- (왼쪽) 3 정도의 정규분포의 결합

- (오른쪽) 여러 개의 이변량 정규분포의 결합

정규분포로 제한할 필요는 없음

 

EM알고리즘 (혼합분포에 대한 최대가능도추정)

편의상 모집단을 구성하는 집단의 분포는 정규분포를 따르고

자료가 M개중 어느 클래스에 나온지 안다면 모수 추정이 어렵지 않음

그러나 데이터가 어느 집단으로부터 나오는지 모르므로, 정보만 추정하면 최대 가능도 추정 문제 해결

잠재변수, 조건부분포(어느집단에 속할지에 대한)로부터 조건부 기댓값


 

특징

- k-평균군집의 절차와 유사하나 확률 분포를 도입하여 군집을 수행하는 모형-기반 군집 방법

- 군집을 몇 개의 모수로 표현 가능

- 서로 다른 크기가 모양의 군집을 찾을 있음

- 이상값에 대해 민감하여 사전조치 필요

- EM알고리즘 이용한 모수 추정 , 데이터가 커지면 수렴하는데 시간이 오래 걸리고

군집의 크기가 너무 작으면 추정도가 떨어짐

 

4. SOM(Self-Organizing Maps)

자기조직화지도, 코호넨

비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태 형상화

입력 변수의 위치를 그대로 보존, 입력변수가 가까이 있으면 지도상에도 가까운 위치 나타남

입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타남

 

2개의 인공신경망 층으로 구성

- 입력층 : 입력벡터를 받는

입력 변수의 개수와 동일하게 뉴런수가 존재

- 경쟁층 : 2차원 격차로 구성됨, 입력의 벡터의 특성에 따라 벡터가 점으로 클러스팅 되는

사용자가 미리 정해놓은 군집 만큼 뉴런수가 존재

지도(map) : 입력층의 자료는 학습을 통해 경쟁층에 정렬

완전연결 : 입력층에 있는 각각 뉴런은 경쟁층에 있는 각각 뉴런과 연결됨


 

프로토타입 벡터와의 유클리드 거리 계산하고 비교

BMU : 표본 벡터에 가장 가까운 프로토타입 벡터 선택

승자독점 학습 규칙에 따른 위상학적 이웃에 대한 연결 강도 조정

경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운지 계산하여 연결강도를 반복적으로 재조정

승자 독식 구조로 인해 경쟁층에는 승자 뉴런만 나타남

SOM 이용한 군집분석은 역전파 알고리즘과 달리,

하나의 전방패스 사용함으로 속도가 매우 바르고

실시간 학습처리가 가능

고차원의 데이터를 저차원의 지도 형태로 형상화, 시각적으로 이해하 쉽고 보존하기에 실제와 유사함

 

4 연관 분석

 

1. 연관규칙

1) 연관규칙의 개념

항목들 간의 '조건-결과'식으로 표현되는 유용한패턴

이러한 패턴, 규칙을 발견하는 것이 연관 분석, 장바구니 분석

- 사용하는 데이터 형태 : 장바구니 데이터

- 특정고객, 장바구니 하나에 해당하는 정보 : 트랜잭션

트랜잭션 사이의 연관성을 살펴보고 빈번히 나타나는 규칙을 찾아냄 (맥주-기저귀)

 

교차판매위해 효과적임

연관성 규칙의 조건과 반응 (if - then) : If - A then B

 

2) 연관규칙의 측정지표

인구통계학적 자료 불필요, 판매시점에서 기록된 거래와 품목의 정보 포함

얼마나 유의미한지 파악이 필요

 

- 지지도 : 전체 거래 A, B 동시에 포함되는 거래 비율

연관규칙이 나왔을 작용성이 있는지 판단, 불필요한 분석 줄임

 

- 신뢰도 : 품목 A 포함된 거래 중에서 품목 A, B 동시에 포함하는 거래

연관성의 정도를 파악가능, A B BA 다른의미


 

- 향상도 : 품목 B 구매한 고객 대비 품목 A 구매한 품목 B 구매하는 고객에 대한 확률

연관규칙 A B 품목 A 품목 B 구매가 서로 관련 없음 향상도는 항상 1

1보다 크면 결과를 예측하는데 우수함, 양의 관계로 A 구매하고 B 구매할 확률 높음

1이면 서로 독립적인 관계

1보다 작으면 우연적 기회, 연관성이 없음, 음의 관계


 

지지도를 높은 값에서 낮은 값으로 낮추어 가면서 실행해야 효율적임

 

3) 연관 분석 절차

Apriori 알고리즘 : 최소지지도를 갖는 연관규칙을 찾는 방법

최소 지지도보다 집합만을 대상으로 높은 지지도를 갖는 품목 집합을 찾는

 

최소 지지도 설정

개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾음

2에서 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 2가지 품목 집합을 찾음

위의 절차에서 찾은 품목 집합을 결합하여 최소 지지도를 넘는 3가지 품목 집합 찾음

반복적으로 수행하여 최소 지지도가 넘는 빈발품목 집합 찾음

 

4) 연관분석의 장점

- 탐색적인 기법 : 조건반응으로 표현되는 연관 분석의 결과를 이해하기 쉽다.

- 강력한 비목적성 분석기법 : 분석 방향이나 목적이 특별하게 없는 경우 목적변수가 없으므로 유용하다.

- 사용이 편리한 분석 데이터 형태 : 거래 내용에 대한 데이터 변환없이 자체로 이용하는 간단 자료 구조

- 계산이 용이성 : 분석을 위한 계산이 상당히 간단

 

5) 연관분석의 단점

- 상당한 수의 계산 과정 : 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남

- 적절한 품목의 결정 : 너무 세분화된 품목이면 연관규칙을 찾으면 의미없는 결과가 나올수 있음

- 품목의 비율 차이 : 상대적으로 거래량이 적은 품목은 당연히 적고, 규칙 발견시 제외 가능성

 

6) 순차 패턴

시간에 따른 구매 정보를 활용하여 이루어짐

순차적 패턴의 발견은 구매 순서가 고려되어 상품간의 연관성이 측정되고

유용한 연관규칙을 찾는 기법 구매 시점에 대한 정보가 필요

 


+ Recent posts