1부. 통계치 모으기

 

1 숫자

인간의 삶에는 숫자, 통계와 관련된 것들이 매우 많음

숫자는 어디서 나왔으며 누가 숫자를 만들었는지, ? 만들었는지 확인해야함

 

2 처리되지 않은 임의의 자료

첫째, 모집단과 표본이 완전 동일할 없음

둘째, 우린 개의 표본만 사용할 있음

임의표본을 채집하는 것은 어려운 것이나 핵심이다.

= 랜덤 샘플

 

3 정렬

표본의 속성이나 범주에 대해 궁금함

범주형 자료 : 쌓을수있고 분리할수도있고 하지만 계산은 불가능

수치자료화 변경 가능하다.

수치 자료 : 나이, 시력, , 연산 가능

 

자료의 분포를 보고싶음 히스토그램

다른 것과 비교할때는 박스플롯

자료를 가지고 항상 해야하는것은 간단한 그림으로 들여다 보는

 

4 조사작업

자료조사시 주요 확인해야 하는 4가지 주요 특징

  1. 표본의 크기 : 크기가 클수록 좋다. ( 신뢰수준과 직결)

모수적방법, 비모수적방법

정규분포 (=가우시안 분포)

 

확률표본에 따라 다른 확률분포 방식 : 신뢰구간에 영향을 미침

 

  1. 자료의 모양 : 어디로 치우쳐 있는지 확인하기
  2. 위치 : 중심적경향, 데이터가 어디 근처에 있는지, 어느 수를 기준으로 있는지

  양수인지, 음수인지, 단위 수인지, 말로 표현하기 어려워

  중심값, 최빈값, 평균값 등등으로 표현함

  자료의 모양과 위치는 함께 확인해야

  1. 퍼짐 정도 : 분산, 범위, 변동의 척도

4개로 나눌 있음

이상치

퍼짐 정도 : 표준편차

 

5 엄청난 실수

평균만으로 보지말고 그림을 그려서 봉우리를 보아야 한다

정규분포 모양이 아니라 여러가지 모양으로 나오면 데이터를 탐색해야함

변수에 따라서 분리해서 확인해 보아야

우리가 변수의 관계를 보고 있다고 생각할 때는 언제든지

우리의 결론에 영향을 끼치는 어떤 다른 변수가 있을 있다는 확인 필요

사실이 아닌것들을 믿어버릴 위험도 있음

 

유의수준 1%, 5%, 10%

귀무가설이 옳은데도 귀무가설을 탈락시키는 경우

양측검정, 단측검정

 

6 표본에서 모집단

모집단  전체를 히스토그램으로 쌓은 것을 '모집단 분포'라고 말한다. 모집단은 표본과 동일하게 모양, 위치, 퍼짐 정도의 특징(속성)을 갖고 있다. 표본의 속성을 '통계량'이라 부르고, 모집단의 속성을 '모수'라고 부른다. (표본의 평균, 표본 크기 등이 통계량이고 모집단의 평균/크기 등이 모수이다.) 통계로 하려는 것은 통계량을 사용해서 모수를 찾아내는 것이다. (정확히는 추측하는 것) 2부에서는 임의의 표본에서 찾은 통계량을 사용해서 모집단의 평균을 찾는 방법을 알아볼 것이다.

 

 

2 모수를 찾아서


7 중심극한정리

평균값이 알고 싶다면 표본을 뽑는다. 표본이 많이 모일수록 중심으로 모아진다.

모집단이 어떤 모양이든지 상관없다

표집분포 = 표본분포

퍼짐의 정도는 모집단보다는 좁다

 

동일 크기를 갖는 임의 표본을 엄청 많이 모은다고 상상해보자. 각 표본은 서로 다른 평균을 갖고 있을 것이다. 어떤 표본은 상대적으로 작은 평균값을 갖고, 어떤 표본은 상대적은 큰 평균값을 가질 것이다. 하지만, 표본들의 평균은 전반적으로 한군데로 모이기 시작한다. 많은 수의 표본들을 평균값을 기준으로 히스토그램을 그리게 되면, 정규분포에 해당하는 모양을 갖게 된다. 1인당 통신요금이든, 자동차의 수명이든, 모집단이 무엇이냐에 상관없이 모집단의 임의표본 평균을 많이 모을수록 임의표본 평균들의 모양은 정규분포에 가까워진다.

 

여기에서 우리는 두 가지를 얻게 된다. 첫 번째는 임의표본 개수가 많을수록 임의표본 평균들의 중앙값은 모집단의 평균과 같아진다는 점이다. 모집단의 모양이 한 쪽으로 치우져있든 평평하든지에 상관없이 임의표본 평균들의 중앙값은 모집단의 평균에 가까워진다..

 

두 번째로 알 수 있는 점은, 임의표본 평균들의 표준편차가 모집단의 표준편차보다 폭이 좁다는 것이다. 표본 크기가 커질수록, 임의표본 평균 더미의 모양은 낮고 넓은 모양에서 높고 좁은 모양에 가까워진다

ex) 출구조사

 

8 확률

표집분포 : 모집단의 평균을 보여주고 확률을 사용가능하게 한다.

 

임의표본의 개수가 엄청 많다면, 흥미로운 결과를 얻을 수 있는데, 그것은 바로  임의표본 평균들로부터 전체 모집단에 관한 확률을 계산할 수 있다는 점이다. 이는, 책의 예처럼 전체 표본의 평균 값 중에서 가운데 50%의 값의 범위가 3.74인치와 4.25인치 사이에 있다면, 모집단위에 무작위로 채집한 표본의 평균이 3.74인차와 4.25인치 사이에 있을 확률이 50%라는 사실을 의미한다.

 

임의표본평균들은 종모양의 정규분포 모양을 갖기 때문에, 중심값과 표준편차만 알면 다음의 수식을 도출할 수 있다.

 

  • 중심에서 표준편차만큼 떨어진 범위 안에 68%가 속한다.
  • 중심에서 표준편차의 2배만큼 떨어진 범위 안에 95%가 속한다.
  • 중심에서 표준편차의 3배만큼 떨어진 범위 안에 99.7%가 속한다.

 

이는 모집단에서 임의로 추출한 표본이 평균에서 표준편차의 2배만큼 떨어진 범위 안에 포함될 확률이 95%임을 의미한다. 즉, 임의표본 평균들의 중심값과 표준편차를 알면, 모집단에 대한 확률을 구할 수 있다.

 

* 확률은 장기적 관점에서의 확률을 말한다. 99%의 확률이라고 하더라도 1%에 해당하는 값이 최초 100번 중에서 5번 이상 나올 수도 있는 것이다. 하지만, 1만번, 1백만번과 같이 빈도수를 증가하면 실제로 99%의 확률에 가까워진다.

 

9 추론

개의 표본으로는 어떻게 모수를 알아낼 있을까?

표본의 크기, 표본의 평균값, 표준편차,

추정표집편차의 좌우를 잘라서 1표준편차, 2표준편차 안에 평균이 있다고 95%안에서 신뢰한다.

신뢰수준 95%

신뢰구간 모집단 평균이 범위안에 있다는

 

정규분포 모양이 될 정도로 임의표본을 모을 수 있다면, 모집단의 평균을 찾는 것은 쉬울 것이다. 하지만, 실제로 많은 수의 임의표본을 수집하는것은 (거의) 불가능하다. 그래서, 우리는 작은 수의 임의 표본으로부터 모집단에 대한 정보를 알아내야 하는데, 이를 추론이라고 한다.

 

한 개의 임의표본으로 시작한다. 표본의 크기, 평균, 편차를 구하고, 이 값으로부터 정규분포 모양을 갖는 추정표집분포를 그린다. 이 추정표집분포로부터 모집단의 평균 찾기를 시작한다.


예제) EBS영어 100명의 학생이 평균 70, 표준편차 10

추정표집편차 : 영어점수 평균 68~ 72 사이에 있을 것에 95% 신뢰구간을 가진다.

 

10 신뢰구간

 

표본으로부터 정규분포를 갖는 추정표집분포를 구했는데, 이것으로부터 신뢰도를 구하는 것은 매우 쉽다. 단순히 중심값(평균)에서 표준편차의 2배만큼 떨어진 곳의 위치를 구한다. 그러면, 95% 신뢰수준에서 모집단 평균이 (중심값-표준편차*2)에서 (중심값+표준편차*2) 범위 안에 위치한다고 추정할 수 있다. 여기서 중심값에서 표준편차의 2배만큼 떨어진 범위를 신뢰구간이라고 한다. 물론, 표준편차의 3배만큼 떨어진 곳을 신뢰구간으로 잡으면 신뢰수준은 99.7%로 올라간다. 하지만, 구간이 그 만큼 커지기 때문에, 모집단 평균의 근사치가 위치할 수 있는 범위도 커지게된다.

 

어떤 임의 표본으로도 95% 신뢰도를 갖는 신뢰구간을 구할 수 있는데, 95%라는 말은 반대로 5%의 확률로 실제 모집단 평균이 신뢰구간에 포함되지 않을수도 있다는 것을 의미한다. 이는 임의 표본 20개 중 1개는 표본의 신뢰구간안에 모집단 평균이 속하지 않음을 뜻한다. 확률이 100%가 아니기 때문에, 추출한 표본이 모집단 평균에서 완전히 벗어날 수도 있다. 하지만, 실제로 이런 가능성은 매우 적게 일어난다.

 

11 그들은 우리를 미워해

척도 사용하기

표본크기, 표본평균, 표본표준편차

 

12 가설검정

통계적 가설검정

 

가설 검증은 모집단 평균을 찾기 위한 또 다른 방법으로, 가설이 얼마나 맞을지 여부를 임의표본을 이용해서 추측하는 것이다. 과정은 이렇다.

 

  1. 가설을 세운다. (영가설/귀무가설, null hyphothesis)
  2. 임의표본을 채집하고, 임의표본의 평균, 표준편차를 구한다.
  3. 가설의 평균과 임의표본의 표준편차를 사용해서 가설용 정규분포를 만든다.
  4. 가설용 정규분포를 기준으로 임의표본 평균이 포함될 확률값(p값)을 구한다.
  5. 그 확률값이 5%(0.05) 미만이면 가설이 틀렸을 가능성이 높다고 판단, 즉 영가설을 기각한다.

 

13 격렬한 대립

앞서 말한 가설을 통계에서 영(null)가설이라고 부른다. 영가설을 기준으로 표본이 나올 확률이 5% 미만이면 영가설이 틀릴 가능성이 95%이므로 영가설을 기각한다. 13장에서는 이의 활용 예를 보여준다.

 

책에서 나오는 예제 중 하나는 기계가 고장 나서 새제품을 사야 할지 여부를 결정하는데 가설검증을 사용하고 있다. 이 예에서는 제품을 생산할 때 평균적으로 제품마다 0.25그램의 원료를 넣는 기계를 사용한다. 그런데, 효과가 약해졌다는 고객들의 항의가 들어오고, 너무 많은 원료가 들어가 있다는 신고도 들어오고 있는 상황이다.

 

그래서 기계가 이상이 있는지 여부를 판단하고 기계를 바꿔야 할지 여부를 결정해야 한다.

 

여기서 영가설은 아래와 같다.

  • 기계는 고장나지 않았다. 즉, 평균적으로 0.25그램의 원료를 잘 넣고 있다.

영가설이 맞는지 확인하기 위해 임의로 80개의 제품을 채집해 조사했다. 조사 결과 표본평균은 0.14그램, 표본표준편차는 0.46이 나왔다. 이 수치를 바탕으로 p 값을 구했더니 0.03이나왔다. 이는 5% 미만이니까, 영가설을 기각한다. 즉, 기계가 고장났을 가능성이 높은 것이다. 물론 이는 기계가 고장나지 않았을 가능성 또한 3% 있다는 것을 기억해야 한다.

 

 


'Data Analisys 공방 > 통계' 카테고리의 다른 글

[즐거운 통계학] 요약정리  (0) 2018.08.30

+ Recent posts