1부. 통계치 모으기

 

1 숫자

인간의 삶에는 숫자, 통계와 관련된 것들이 매우 많음

숫자는 어디서 나왔으며 누가 숫자를 만들었는지, ? 만들었는지 확인해야함

 

2 처리되지 않은 임의의 자료

첫째, 모집단과 표본이 완전 동일할 없음

둘째, 우린 개의 표본만 사용할 있음

임의표본을 채집하는 것은 어려운 것이나 핵심이다.

= 랜덤 샘플

 

3 정렬

표본의 속성이나 범주에 대해 궁금함

범주형 자료 : 쌓을수있고 분리할수도있고 하지만 계산은 불가능

수치자료화 변경 가능하다.

수치 자료 : 나이, 시력, , 연산 가능

 

자료의 분포를 보고싶음 히스토그램

다른 것과 비교할때는 박스플롯

자료를 가지고 항상 해야하는것은 간단한 그림으로 들여다 보는

 

4 조사작업

자료조사시 주요 확인해야 하는 4가지 주요 특징

  1. 표본의 크기 : 크기가 클수록 좋다. ( 신뢰수준과 직결)

모수적방법, 비모수적방법

정규분포 (=가우시안 분포)

 

확률표본에 따라 다른 확률분포 방식 : 신뢰구간에 영향을 미침

 

  1. 자료의 모양 : 어디로 치우쳐 있는지 확인하기
  2. 위치 : 중심적경향, 데이터가 어디 근처에 있는지, 어느 수를 기준으로 있는지

  양수인지, 음수인지, 단위 수인지, 말로 표현하기 어려워

  중심값, 최빈값, 평균값 등등으로 표현함

  자료의 모양과 위치는 함께 확인해야

  1. 퍼짐 정도 : 분산, 범위, 변동의 척도

4개로 나눌 있음

이상치

퍼짐 정도 : 표준편차

 

5 엄청난 실수

평균만으로 보지말고 그림을 그려서 봉우리를 보아야 한다

정규분포 모양이 아니라 여러가지 모양으로 나오면 데이터를 탐색해야함

변수에 따라서 분리해서 확인해 보아야

우리가 변수의 관계를 보고 있다고 생각할 때는 언제든지

우리의 결론에 영향을 끼치는 어떤 다른 변수가 있을 있다는 확인 필요

사실이 아닌것들을 믿어버릴 위험도 있음

 

유의수준 1%, 5%, 10%

귀무가설이 옳은데도 귀무가설을 탈락시키는 경우

양측검정, 단측검정

 

6 표본에서 모집단

모집단  전체를 히스토그램으로 쌓은 것을 '모집단 분포'라고 말한다. 모집단은 표본과 동일하게 모양, 위치, 퍼짐 정도의 특징(속성)을 갖고 있다. 표본의 속성을 '통계량'이라 부르고, 모집단의 속성을 '모수'라고 부른다. (표본의 평균, 표본 크기 등이 통계량이고 모집단의 평균/크기 등이 모수이다.) 통계로 하려는 것은 통계량을 사용해서 모수를 찾아내는 것이다. (정확히는 추측하는 것) 2부에서는 임의의 표본에서 찾은 통계량을 사용해서 모집단의 평균을 찾는 방법을 알아볼 것이다.

 

 

2 모수를 찾아서


7 중심극한정리

평균값이 알고 싶다면 표본을 뽑는다. 표본이 많이 모일수록 중심으로 모아진다.

모집단이 어떤 모양이든지 상관없다

표집분포 = 표본분포

퍼짐의 정도는 모집단보다는 좁다

 

동일 크기를 갖는 임의 표본을 엄청 많이 모은다고 상상해보자. 각 표본은 서로 다른 평균을 갖고 있을 것이다. 어떤 표본은 상대적으로 작은 평균값을 갖고, 어떤 표본은 상대적은 큰 평균값을 가질 것이다. 하지만, 표본들의 평균은 전반적으로 한군데로 모이기 시작한다. 많은 수의 표본들을 평균값을 기준으로 히스토그램을 그리게 되면, 정규분포에 해당하는 모양을 갖게 된다. 1인당 통신요금이든, 자동차의 수명이든, 모집단이 무엇이냐에 상관없이 모집단의 임의표본 평균을 많이 모을수록 임의표본 평균들의 모양은 정규분포에 가까워진다.

 

여기에서 우리는 두 가지를 얻게 된다. 첫 번째는 임의표본 개수가 많을수록 임의표본 평균들의 중앙값은 모집단의 평균과 같아진다는 점이다. 모집단의 모양이 한 쪽으로 치우져있든 평평하든지에 상관없이 임의표본 평균들의 중앙값은 모집단의 평균에 가까워진다..

 

두 번째로 알 수 있는 점은, 임의표본 평균들의 표준편차가 모집단의 표준편차보다 폭이 좁다는 것이다. 표본 크기가 커질수록, 임의표본 평균 더미의 모양은 낮고 넓은 모양에서 높고 좁은 모양에 가까워진다

ex) 출구조사

 

8 확률

표집분포 : 모집단의 평균을 보여주고 확률을 사용가능하게 한다.

 

임의표본의 개수가 엄청 많다면, 흥미로운 결과를 얻을 수 있는데, 그것은 바로  임의표본 평균들로부터 전체 모집단에 관한 확률을 계산할 수 있다는 점이다. 이는, 책의 예처럼 전체 표본의 평균 값 중에서 가운데 50%의 값의 범위가 3.74인치와 4.25인치 사이에 있다면, 모집단위에 무작위로 채집한 표본의 평균이 3.74인차와 4.25인치 사이에 있을 확률이 50%라는 사실을 의미한다.

 

임의표본평균들은 종모양의 정규분포 모양을 갖기 때문에, 중심값과 표준편차만 알면 다음의 수식을 도출할 수 있다.

 

  • 중심에서 표준편차만큼 떨어진 범위 안에 68%가 속한다.
  • 중심에서 표준편차의 2배만큼 떨어진 범위 안에 95%가 속한다.
  • 중심에서 표준편차의 3배만큼 떨어진 범위 안에 99.7%가 속한다.

 

이는 모집단에서 임의로 추출한 표본이 평균에서 표준편차의 2배만큼 떨어진 범위 안에 포함될 확률이 95%임을 의미한다. 즉, 임의표본 평균들의 중심값과 표준편차를 알면, 모집단에 대한 확률을 구할 수 있다.

 

* 확률은 장기적 관점에서의 확률을 말한다. 99%의 확률이라고 하더라도 1%에 해당하는 값이 최초 100번 중에서 5번 이상 나올 수도 있는 것이다. 하지만, 1만번, 1백만번과 같이 빈도수를 증가하면 실제로 99%의 확률에 가까워진다.

 

9 추론

개의 표본으로는 어떻게 모수를 알아낼 있을까?

표본의 크기, 표본의 평균값, 표준편차,

추정표집편차의 좌우를 잘라서 1표준편차, 2표준편차 안에 평균이 있다고 95%안에서 신뢰한다.

신뢰수준 95%

신뢰구간 모집단 평균이 범위안에 있다는

 

정규분포 모양이 될 정도로 임의표본을 모을 수 있다면, 모집단의 평균을 찾는 것은 쉬울 것이다. 하지만, 실제로 많은 수의 임의표본을 수집하는것은 (거의) 불가능하다. 그래서, 우리는 작은 수의 임의 표본으로부터 모집단에 대한 정보를 알아내야 하는데, 이를 추론이라고 한다.

 

한 개의 임의표본으로 시작한다. 표본의 크기, 평균, 편차를 구하고, 이 값으로부터 정규분포 모양을 갖는 추정표집분포를 그린다. 이 추정표집분포로부터 모집단의 평균 찾기를 시작한다.


예제) EBS영어 100명의 학생이 평균 70, 표준편차 10

추정표집편차 : 영어점수 평균 68~ 72 사이에 있을 것에 95% 신뢰구간을 가진다.

 

10 신뢰구간

 

표본으로부터 정규분포를 갖는 추정표집분포를 구했는데, 이것으로부터 신뢰도를 구하는 것은 매우 쉽다. 단순히 중심값(평균)에서 표준편차의 2배만큼 떨어진 곳의 위치를 구한다. 그러면, 95% 신뢰수준에서 모집단 평균이 (중심값-표준편차*2)에서 (중심값+표준편차*2) 범위 안에 위치한다고 추정할 수 있다. 여기서 중심값에서 표준편차의 2배만큼 떨어진 범위를 신뢰구간이라고 한다. 물론, 표준편차의 3배만큼 떨어진 곳을 신뢰구간으로 잡으면 신뢰수준은 99.7%로 올라간다. 하지만, 구간이 그 만큼 커지기 때문에, 모집단 평균의 근사치가 위치할 수 있는 범위도 커지게된다.

 

어떤 임의 표본으로도 95% 신뢰도를 갖는 신뢰구간을 구할 수 있는데, 95%라는 말은 반대로 5%의 확률로 실제 모집단 평균이 신뢰구간에 포함되지 않을수도 있다는 것을 의미한다. 이는 임의 표본 20개 중 1개는 표본의 신뢰구간안에 모집단 평균이 속하지 않음을 뜻한다. 확률이 100%가 아니기 때문에, 추출한 표본이 모집단 평균에서 완전히 벗어날 수도 있다. 하지만, 실제로 이런 가능성은 매우 적게 일어난다.

 

11 그들은 우리를 미워해

척도 사용하기

표본크기, 표본평균, 표본표준편차

 

12 가설검정

통계적 가설검정

 

가설 검증은 모집단 평균을 찾기 위한 또 다른 방법으로, 가설이 얼마나 맞을지 여부를 임의표본을 이용해서 추측하는 것이다. 과정은 이렇다.

 

  1. 가설을 세운다. (영가설/귀무가설, null hyphothesis)
  2. 임의표본을 채집하고, 임의표본의 평균, 표준편차를 구한다.
  3. 가설의 평균과 임의표본의 표준편차를 사용해서 가설용 정규분포를 만든다.
  4. 가설용 정규분포를 기준으로 임의표본 평균이 포함될 확률값(p값)을 구한다.
  5. 그 확률값이 5%(0.05) 미만이면 가설이 틀렸을 가능성이 높다고 판단, 즉 영가설을 기각한다.

 

13 격렬한 대립

앞서 말한 가설을 통계에서 영(null)가설이라고 부른다. 영가설을 기준으로 표본이 나올 확률이 5% 미만이면 영가설이 틀릴 가능성이 95%이므로 영가설을 기각한다. 13장에서는 이의 활용 예를 보여준다.

 

책에서 나오는 예제 중 하나는 기계가 고장 나서 새제품을 사야 할지 여부를 결정하는데 가설검증을 사용하고 있다. 이 예에서는 제품을 생산할 때 평균적으로 제품마다 0.25그램의 원료를 넣는 기계를 사용한다. 그런데, 효과가 약해졌다는 고객들의 항의가 들어오고, 너무 많은 원료가 들어가 있다는 신고도 들어오고 있는 상황이다.

 

그래서 기계가 이상이 있는지 여부를 판단하고 기계를 바꿔야 할지 여부를 결정해야 한다.

 

여기서 영가설은 아래와 같다.

  • 기계는 고장나지 않았다. 즉, 평균적으로 0.25그램의 원료를 잘 넣고 있다.

영가설이 맞는지 확인하기 위해 임의로 80개의 제품을 채집해 조사했다. 조사 결과 표본평균은 0.14그램, 표본표준편차는 0.46이 나왔다. 이 수치를 바탕으로 p 값을 구했더니 0.03이나왔다. 이는 5% 미만이니까, 영가설을 기각한다. 즉, 기계가 고장났을 가능성이 높은 것이다. 물론 이는 기계가 고장나지 않았을 가능성 또한 3% 있다는 것을 기억해야 한다.

 

 


다른 시험에서는 이부분이 1과목보다 어렵다고 하였는데
이번 저희 18회는 2과목이 더 쉬웠던거 같은건
저만의 느낌일까요?
전 우선 다 맞은거 같은데...
이것도 나중에 답이 나와봐야 정확히 알 수 있을꺼같습니다.


객관식1. 데이터 거버넌스 메타데이터 구축/표준용어 설정/명명규칙 수립등을 하는 것은?
정답 : 데이터 표준화
3-2의 제 2절에 나와있어요.
데이터 거버넌스 구성요소(원칙, 조직, 프로세스)랑 흐름을 알아두면 좋은데
예전 복원에는 저장소관리가 나왔었어요. 저장소 관리는 워크플러우 및 관리용 응용 소프트웨어 지원 이라고
데이터 표준화는 표준용어설정, 명명규칙 등이 중요한 거라 순서를 보고 가시면 좋을 것 같아요.

객관식2. 하양식 문제 탐색 단계에 대한 설명이 아닌것은?
정답 :  유스케이스 활용보다 새로운 이유탐색이 우선
3-1의 제 2절에서 하양식 방식에서
비즈니스 모델 기반 문제탐색, 분석 유즈케이스 정의 등이 함께 나왔습니다.

객관식3.  과제 우선순위 결정 내용중 부적절한 것은?
정답 :  Value(가치)는 투자비용 요소이다.
3-2 제 1절의 가장 중요한 부분이죠
우선순위 설정의 전략적 중요도, ROI, 실행용이성은 백프로 매번 나와요
가치는 투자비용이 아니라 비즈니스 적 요소에요! 이부분도 진짜 매번 나오는데
두개가 이번에 겹쳐서 나왔어요.

객관식4. 분석 기획 고려사항 중 장애요소에 대한 부적절한 설명은?
정답 : 이해하기 쉬운 모델보다는 복잡하고 정교한 모형이 더 효과적이다
3-1의 제 1절에서 분석 기획 시 고려사항에서
가용한 데이터, 장애요소 해결과 더불어 적절한 유스케이스를 사용하는게 중요하다고 나와요
바퀴를 재발명하지 마라라는게 핵심이에요
저가항공사 예시를 들어서 단순화된 분석이 더 높은 효율을 냈다 라는부분에서 이게 답인거 같아요.

객관식5. 분석 대상은 모르나, 기존 분석방식이 활용할 경우는? 그리고 대상을 아에 새로 선정할 것은?
정답 : 통찰-발견
3-1의 제 1절 분석 기획 방향성 도출에서 분석대상에 관한 설명이었습니다.
이부분의 최적화, 솔루션, 통찰, 발견은 꼭 외워야하고 매번 나오는 문제에요
근데 그중에서도 통찰은 항상 나오는거 같아요, 객관식 주관식 전부 나오는거 같아요
꼭! 기억해야해용

객관식6. 분석 과제 수행시 고려하는 5요소가 아닌것은?
정답 : 데이터 분석 방법(Method)
3-1 제4절의 분석 프로젝트 관리 방안이에요
이부분의 5개는 자주나오는데 꼭 기억해야해요
데이터 사이즈, 데이터 복잡도, 스피드, 정확도와 복잡도, 정확도와 편차수준

객관식7. 정형 - 반정형 - 비정형 데이터 순서로 된 것은?
정답 : Demand Forecast - Competitor pricing - Email recode
이건... 찍었는데 맞은거 같아요. 수욕예측과 이메일 레코드는 확실해서
정형, 반정형, 비정형 문제는 변별력으로 상급 문제인데
찍은게 잘 맞은... 그런 느낌적인 느낌? ㅋㅋㅋㅋ

객관식8. 프로토 타이핑의 내용으로 적절한 것은?
정답 : 신속하게 해결책 모형 제시, 문제 좀 더 명확하게 인식, 식별
상향식 접근 방법 중 하나에요.
빠르고, 결과를 반복하고 개선하는거, 완전하지 못해도 해결책을 제시하는 모형이면 백프로 프로토타입 모델이에요
필요성도 중요해요 (문제에 대한 인식수준, 필요데이터 존재여부의 불확실성, 데이터 사용 목적의 가변성)

주관식 1. 문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 단계화 되어 수행하는 방식
정답 :  하향식 접근 방식
3-1의 3절 분석과제발굴에 있습니다.
하양식에 대한 설명이 객관식 2번 문제에 나와서 설마 또 ? 아에 답을 알려준게 나오나? 고민했던 문제에요 ㅋㅋㅋ
의외로 문제를 보다보면 겹치는 부분이 있어서 객관식 보기의 정답이 주관식 답이 되는 경우가 있나봐요
SQLD에서도 그런적이 있어요.

주관식 2. 데이터 분석 방법론, 머신러닝을 이용한 수행모델을 만들거나 데이터 분할 하는 부분은?
정답 : 모델링 
이것도 항상 데이터 분석 부분의 모델링이 제일 많이 나오는거같아요
이 부분에서는 알고리즘 설명서를 작성하고 의사코드 수준의 상세한 작성 필요까지 외워두면 좋을꺼같아요.


전반적으로 3-1이 더 많이 나온거 같아요 3-2절의 훨씬 문제 낼 곳이 많은데 ㅋㅋㅋ

그리고 원래도 3-2가 많이 나오는데

이번에는 3-1이 나오고 좀 쉬운 부분, 명확하게 공부해야하는 부분만 나온거 같아요

내 머리속의 기억이 더 없어지기 전에

문제를 복원해 보려고 합니다.

100% 정답은 아니니 계속해서 수정해나갈게요

중요한 부분보다는 사이사이 표 내부의 내용이 많이 나왔어요

어렵지는 않았지만 헷갈릴 부분이 많았어요
전 객3, 주2 틀렸어요 ㅋㅋㅋ
이 정답이 다 맞다면 제가 이부분에서는 16/20 이겠죠?
나중에 결과 나오면 같이 보여드릴게요!


객관식1. 빅데이터 출현 배경 설명으로 부적절한 것은? 
정답 : 데이터 구조의 정형화
1-2의 1절에 출현배경이 있어요
산업계, 학계, 관련기술 이부분 나머지 적절한 설명이었습니다.

객관식2. 통찰력 제공하는 분석 기술 아닌것은?         
정답 : 추출
책에 보면 통찰력과 정보에 따른 차이가 나옵니다.
제 2절 인사이트 도출에서 5번. 데이터 사이언스에 요구되는 인문학적 사고의 특성와 역할 입니다.
추출은 정보이고, 통찰력에 관련한것은 최적화, 모델링, 권고, 시물레이션, 예측 등 나와있습니다.
표를 이해하면 좋을 것 같아요.

객관식3. 가트너가 언급한 데이터 사이언티스트의 역량이 아닌것은?
정답 : 하드스킬
가트너가 말한것은 소프트 스킬이었습니다.
이것도 가이드 내용에 표 안에 삽입된 내용이고
다른 부분보다 카드너가 내용이 중요한거 같아요

객관식4. 내재된 경험을 문서나 매체로 저장하는 과정은? 
정답 : 표출화
1-1 부분에 암묵지와 형식지가 있는데
암묵지는 공통화, 내면화이고
형식지는 표출화, 연결화 입니다.
그래서 암묵지를 형식지로 변경하는 과정을 표현화, 표출화라고 하여 표출화를 선택했습니다.

객관식5. 빅데이터 시험 위험 요소가 아닌것은? 
정답 : 익명화
1-2의 4절 위기요인에서
사생활침해, 책임원칙훼손, 데이터오용이 원인이에요
이에 따른 통제방안 동의에서 책임으로, 결과기반책임원칙고수, 알고리즘접근허용도 자주 출제되는 문제입니다.
이부분은 한번씩은 꼭 나오는거 같아요

객관식6 인문학 열풍의 이유가 아닌것은? 
정답 : 빅데이터 분석 기법 및 방법론의 확대
1-3의 2절에 전략 인사이트 도출을 위해 필요한 역량 부분에서
사회경제적 변화 부분에 아래부분은 맞는거 위에 답은 적절하지 않은 것으로 나왔어요.
1)단순환 세계화에서 복잡한 세계화
2)제품생산에서 고객가치, 서비스이동
3)산업이 생산에서 시장창조로 변경

객관식7 데이터 사이언스에 대한 설명이 부적절한 것은?
정답 : 통계학이 더 많은 유형의 데이터를 근간으로 한다
전반적인 데이터 사이언스에 대한 질문으로 나왔어요.
예를 들어, 호기심이 높아야한다. 인문학적 성향이 있어야 한다 등등
통계학을 포함한 것이지 통계학이 더 좋은 것은 아니에요. 이런 부분은 항상 답입니다 ㅋㅋ

객관식8 DIKW내용 중 내용이 다른 하나는?
정답 : 매출액은 3000만원으로 예상된다
1-1의 데이터와 정보 관계에 있습니다.
나머지 보기는 전부 데이터 였어요.
기본적인 이건 얼마다. 가격이 얼마다 정도입니다.
예시니까 잘 고민해보고 답끼리 비교하면 쉽게 찾을 수 있어요

주관식1. 문제에 대하여 원인과 결과에 대한 것과 신속한 의사결정이 필요하면서 변경된 것
정답 :  A: 인과관계 B: 상관관계
1-2의 1절 부분 중 본질적인 변화
사전이 사후처리로, 표본조사가 전수조사로, 질보다 양으로, 인과관계가 상관관계로
변화하는 것들이 중요한 것이고 이에 대한 정보에 빈칸 퉁퉁 뚫어 나왔습니다.
처음에는 엄청 당황했는데 읽고보니 인과관계, 상관관계 였어요 

주관식2.페이스북, os플랫폼, API사용 관련 본문내용 제시
정답 : 플랫폼
하아... 빅데이터 기능이라고 1-2부분의 내용인데
저는 렌즈내용만 너무 열심히 봤었나봐요
이거 다들 맞추셨던데 저만 틀린 느낌? ㅋㅋㅋ 쉬운 문제였다고 하셨어요
저는 연결이라고 데이터, 연결, 에이전시 그건줄 알았는데 아니었더라구요
책을 꼼꼼히 읽어보시는걸 추천드립니다.





+ Recent posts