1부. 통계치 모으기

 

1 숫자

인간의 삶에는 숫자, 통계와 관련된 것들이 매우 많음

숫자는 어디서 나왔으며 누가 숫자를 만들었는지, ? 만들었는지 확인해야함

 

2 처리되지 않은 임의의 자료

첫째, 모집단과 표본이 완전 동일할 없음

둘째, 우린 개의 표본만 사용할 있음

임의표본을 채집하는 것은 어려운 것이나 핵심이다.

= 랜덤 샘플

 

3 정렬

표본의 속성이나 범주에 대해 궁금함

범주형 자료 : 쌓을수있고 분리할수도있고 하지만 계산은 불가능

수치자료화 변경 가능하다.

수치 자료 : 나이, 시력, , 연산 가능

 

자료의 분포를 보고싶음 히스토그램

다른 것과 비교할때는 박스플롯

자료를 가지고 항상 해야하는것은 간단한 그림으로 들여다 보는

 

4 조사작업

자료조사시 주요 확인해야 하는 4가지 주요 특징

  1. 표본의 크기 : 크기가 클수록 좋다. ( 신뢰수준과 직결)

모수적방법, 비모수적방법

정규분포 (=가우시안 분포)

 

확률표본에 따라 다른 확률분포 방식 : 신뢰구간에 영향을 미침

 

  1. 자료의 모양 : 어디로 치우쳐 있는지 확인하기
  2. 위치 : 중심적경향, 데이터가 어디 근처에 있는지, 어느 수를 기준으로 있는지

  양수인지, 음수인지, 단위 수인지, 말로 표현하기 어려워

  중심값, 최빈값, 평균값 등등으로 표현함

  자료의 모양과 위치는 함께 확인해야

  1. 퍼짐 정도 : 분산, 범위, 변동의 척도

4개로 나눌 있음

이상치

퍼짐 정도 : 표준편차

 

5 엄청난 실수

평균만으로 보지말고 그림을 그려서 봉우리를 보아야 한다

정규분포 모양이 아니라 여러가지 모양으로 나오면 데이터를 탐색해야함

변수에 따라서 분리해서 확인해 보아야

우리가 변수의 관계를 보고 있다고 생각할 때는 언제든지

우리의 결론에 영향을 끼치는 어떤 다른 변수가 있을 있다는 확인 필요

사실이 아닌것들을 믿어버릴 위험도 있음

 

유의수준 1%, 5%, 10%

귀무가설이 옳은데도 귀무가설을 탈락시키는 경우

양측검정, 단측검정

 

6 표본에서 모집단

모집단  전체를 히스토그램으로 쌓은 것을 '모집단 분포'라고 말한다. 모집단은 표본과 동일하게 모양, 위치, 퍼짐 정도의 특징(속성)을 갖고 있다. 표본의 속성을 '통계량'이라 부르고, 모집단의 속성을 '모수'라고 부른다. (표본의 평균, 표본 크기 등이 통계량이고 모집단의 평균/크기 등이 모수이다.) 통계로 하려는 것은 통계량을 사용해서 모수를 찾아내는 것이다. (정확히는 추측하는 것) 2부에서는 임의의 표본에서 찾은 통계량을 사용해서 모집단의 평균을 찾는 방법을 알아볼 것이다.

 

 

2 모수를 찾아서


7 중심극한정리

평균값이 알고 싶다면 표본을 뽑는다. 표본이 많이 모일수록 중심으로 모아진다.

모집단이 어떤 모양이든지 상관없다

표집분포 = 표본분포

퍼짐의 정도는 모집단보다는 좁다

 

동일 크기를 갖는 임의 표본을 엄청 많이 모은다고 상상해보자. 각 표본은 서로 다른 평균을 갖고 있을 것이다. 어떤 표본은 상대적으로 작은 평균값을 갖고, 어떤 표본은 상대적은 큰 평균값을 가질 것이다. 하지만, 표본들의 평균은 전반적으로 한군데로 모이기 시작한다. 많은 수의 표본들을 평균값을 기준으로 히스토그램을 그리게 되면, 정규분포에 해당하는 모양을 갖게 된다. 1인당 통신요금이든, 자동차의 수명이든, 모집단이 무엇이냐에 상관없이 모집단의 임의표본 평균을 많이 모을수록 임의표본 평균들의 모양은 정규분포에 가까워진다.

 

여기에서 우리는 두 가지를 얻게 된다. 첫 번째는 임의표본 개수가 많을수록 임의표본 평균들의 중앙값은 모집단의 평균과 같아진다는 점이다. 모집단의 모양이 한 쪽으로 치우져있든 평평하든지에 상관없이 임의표본 평균들의 중앙값은 모집단의 평균에 가까워진다..

 

두 번째로 알 수 있는 점은, 임의표본 평균들의 표준편차가 모집단의 표준편차보다 폭이 좁다는 것이다. 표본 크기가 커질수록, 임의표본 평균 더미의 모양은 낮고 넓은 모양에서 높고 좁은 모양에 가까워진다

ex) 출구조사

 

8 확률

표집분포 : 모집단의 평균을 보여주고 확률을 사용가능하게 한다.

 

임의표본의 개수가 엄청 많다면, 흥미로운 결과를 얻을 수 있는데, 그것은 바로  임의표본 평균들로부터 전체 모집단에 관한 확률을 계산할 수 있다는 점이다. 이는, 책의 예처럼 전체 표본의 평균 값 중에서 가운데 50%의 값의 범위가 3.74인치와 4.25인치 사이에 있다면, 모집단위에 무작위로 채집한 표본의 평균이 3.74인차와 4.25인치 사이에 있을 확률이 50%라는 사실을 의미한다.

 

임의표본평균들은 종모양의 정규분포 모양을 갖기 때문에, 중심값과 표준편차만 알면 다음의 수식을 도출할 수 있다.

 

  • 중심에서 표준편차만큼 떨어진 범위 안에 68%가 속한다.
  • 중심에서 표준편차의 2배만큼 떨어진 범위 안에 95%가 속한다.
  • 중심에서 표준편차의 3배만큼 떨어진 범위 안에 99.7%가 속한다.

 

이는 모집단에서 임의로 추출한 표본이 평균에서 표준편차의 2배만큼 떨어진 범위 안에 포함될 확률이 95%임을 의미한다. 즉, 임의표본 평균들의 중심값과 표준편차를 알면, 모집단에 대한 확률을 구할 수 있다.

 

* 확률은 장기적 관점에서의 확률을 말한다. 99%의 확률이라고 하더라도 1%에 해당하는 값이 최초 100번 중에서 5번 이상 나올 수도 있는 것이다. 하지만, 1만번, 1백만번과 같이 빈도수를 증가하면 실제로 99%의 확률에 가까워진다.

 

9 추론

개의 표본으로는 어떻게 모수를 알아낼 있을까?

표본의 크기, 표본의 평균값, 표준편차,

추정표집편차의 좌우를 잘라서 1표준편차, 2표준편차 안에 평균이 있다고 95%안에서 신뢰한다.

신뢰수준 95%

신뢰구간 모집단 평균이 범위안에 있다는

 

정규분포 모양이 될 정도로 임의표본을 모을 수 있다면, 모집단의 평균을 찾는 것은 쉬울 것이다. 하지만, 실제로 많은 수의 임의표본을 수집하는것은 (거의) 불가능하다. 그래서, 우리는 작은 수의 임의 표본으로부터 모집단에 대한 정보를 알아내야 하는데, 이를 추론이라고 한다.

 

한 개의 임의표본으로 시작한다. 표본의 크기, 평균, 편차를 구하고, 이 값으로부터 정규분포 모양을 갖는 추정표집분포를 그린다. 이 추정표집분포로부터 모집단의 평균 찾기를 시작한다.


예제) EBS영어 100명의 학생이 평균 70, 표준편차 10

추정표집편차 : 영어점수 평균 68~ 72 사이에 있을 것에 95% 신뢰구간을 가진다.

 

10 신뢰구간

 

표본으로부터 정규분포를 갖는 추정표집분포를 구했는데, 이것으로부터 신뢰도를 구하는 것은 매우 쉽다. 단순히 중심값(평균)에서 표준편차의 2배만큼 떨어진 곳의 위치를 구한다. 그러면, 95% 신뢰수준에서 모집단 평균이 (중심값-표준편차*2)에서 (중심값+표준편차*2) 범위 안에 위치한다고 추정할 수 있다. 여기서 중심값에서 표준편차의 2배만큼 떨어진 범위를 신뢰구간이라고 한다. 물론, 표준편차의 3배만큼 떨어진 곳을 신뢰구간으로 잡으면 신뢰수준은 99.7%로 올라간다. 하지만, 구간이 그 만큼 커지기 때문에, 모집단 평균의 근사치가 위치할 수 있는 범위도 커지게된다.

 

어떤 임의 표본으로도 95% 신뢰도를 갖는 신뢰구간을 구할 수 있는데, 95%라는 말은 반대로 5%의 확률로 실제 모집단 평균이 신뢰구간에 포함되지 않을수도 있다는 것을 의미한다. 이는 임의 표본 20개 중 1개는 표본의 신뢰구간안에 모집단 평균이 속하지 않음을 뜻한다. 확률이 100%가 아니기 때문에, 추출한 표본이 모집단 평균에서 완전히 벗어날 수도 있다. 하지만, 실제로 이런 가능성은 매우 적게 일어난다.

 

11 그들은 우리를 미워해

척도 사용하기

표본크기, 표본평균, 표본표준편차

 

12 가설검정

통계적 가설검정

 

가설 검증은 모집단 평균을 찾기 위한 또 다른 방법으로, 가설이 얼마나 맞을지 여부를 임의표본을 이용해서 추측하는 것이다. 과정은 이렇다.

 

  1. 가설을 세운다. (영가설/귀무가설, null hyphothesis)
  2. 임의표본을 채집하고, 임의표본의 평균, 표준편차를 구한다.
  3. 가설의 평균과 임의표본의 표준편차를 사용해서 가설용 정규분포를 만든다.
  4. 가설용 정규분포를 기준으로 임의표본 평균이 포함될 확률값(p값)을 구한다.
  5. 그 확률값이 5%(0.05) 미만이면 가설이 틀렸을 가능성이 높다고 판단, 즉 영가설을 기각한다.

 

13 격렬한 대립

앞서 말한 가설을 통계에서 영(null)가설이라고 부른다. 영가설을 기준으로 표본이 나올 확률이 5% 미만이면 영가설이 틀릴 가능성이 95%이므로 영가설을 기각한다. 13장에서는 이의 활용 예를 보여준다.

 

책에서 나오는 예제 중 하나는 기계가 고장 나서 새제품을 사야 할지 여부를 결정하는데 가설검증을 사용하고 있다. 이 예에서는 제품을 생산할 때 평균적으로 제품마다 0.25그램의 원료를 넣는 기계를 사용한다. 그런데, 효과가 약해졌다는 고객들의 항의가 들어오고, 너무 많은 원료가 들어가 있다는 신고도 들어오고 있는 상황이다.

 

그래서 기계가 이상이 있는지 여부를 판단하고 기계를 바꿔야 할지 여부를 결정해야 한다.

 

여기서 영가설은 아래와 같다.

  • 기계는 고장나지 않았다. 즉, 평균적으로 0.25그램의 원료를 잘 넣고 있다.

영가설이 맞는지 확인하기 위해 임의로 80개의 제품을 채집해 조사했다. 조사 결과 표본평균은 0.14그램, 표본표준편차는 0.46이 나왔다. 이 수치를 바탕으로 p 값을 구했더니 0.03이나왔다. 이는 5% 미만이니까, 영가설을 기각한다. 즉, 기계가 고장났을 가능성이 높은 것이다. 물론 이는 기계가 고장나지 않았을 가능성 또한 3% 있다는 것을 기억해야 한다.

 

 


1 통계학 개론

 

1. 통계 분석 개요

1) 통계학의 정의

경제통계, 사회조사분석통계, 실험결과 분석 통계 다양한 형태

자료로부터 유용한 정보를 이끌어 내는 학문, 자료 수집과 정리, 이를 해석하는 방법 모두 포함

2) 모집단과 표본

모집단(=추출단위, 원소) : 유용한 정보의 대상이 되는 , 우리가 알고자 하는 전체

- 유한모집단 : 유한 개의 개체로 이루어진 모집단

- 무한모집단 : 무한 개의 개체로 이루어진 모집단으로 보통의 개념적인 모집단 지칭

조사 : 모집단의 개체 모두 조사하는 방법 ex) 인구 주택 총조사

표본 : 모집단의 일부분

표본조사 : 일부분인 조사하여 모집단에 대해 추론하는

모수 : 모집단에 대해 알고자 하는

통계량 : 모수를 추론하기 위해 구하는 표본의 값들

3) 표본추출의 방법

모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출 방법

분석결과 해석은 차이가 발생

 

표본 추출 방법

- 단순랜덤추출법 : 랜덤으로 임의 번호를 선택하여 추출

- 계통추출법 : 일련 번호를 부여하고 k개씩 n 구간으로 나누고 구간별 선택,  ex)4, 14, 24, 34 ...

- 집락추출법 : 몇 개의 클러스터로 결합된 형태에서 집락을 랜덤으로 선택하고 집락에 임의 추출

- 층화추출법 : 이질적인 원소로 구성된 모집단에서 계층을 고루 대표할 표본을 추출하는

원소들을 서로 유사한 것끼리 층으로 나눈 , 층에서 표본 랜덤 추출

 

실험 : 표본 조사 이외의 자료를 수집하는 방법

특정 목적하에서 실험대상에게 처리를 가한후 결과를 관측해 자료를 수집

ex) 새로운 강의법과 기존 강의법을 실험한 성적 조사, 암치료제 효과 분석

 

4) 자료의 종류

측정 : 추출된 원소, 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는

질적자료

- 명목척도 : 어느 집단에 속하는지 분류하는 척도

ex) 성별(, ), 출생지(서울, 부산 )

- 순서척도 : 특성이 가지는 서열 관계를 관측하는 척도, 일정한 순서

ex) 서비스 만족도 5단계 구분

양적자료

- 구간척도 : 속성의 양을 측정하는 , 숫자로 표현, 절대적인 원점이 없음

ex) 사이의 비율은 의미 없는 온도, 지수

- 비율척도 : 절대적 기준인 0 존재하고, 모든 사칙연산 가능, 제일 많은 정보

ex) 무게, 나이, 연간소득, 제품가격 일반적인 자료 특성

 

2. 통계 분석

특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상집단에 대한 정보를 구하고

적절한 통계 분석 방법을 이용해 의사결정 하는 과정

 

통계적 추론 : 수집된 자료를 이용해 대상 모집에 대해 의사결정 하는

- 추정 : 대상 집단의 특성값(모수) 무엇일까? 추측

- 가설검정 : 대상 집단에 대해 특정한 가설을 설정한 가설의 채택여부를 결정하는

- 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행하는

 

기술통계 : 수집된 자료를 정리, 요약하기 위해 사용되는 기초적인 통계 통계분석을 위한 사전단계

- 평균, 표준편차, 중위수, 최빈값, %

- 막대그래프, 원그래프, 꺽은선 그래프

 

3. 확률 확률분포

 

1) 확률의 정의

확률 : 특정사건이 일어날 가능성의 척도

표본공간 : 통계적 실험이 실시할 나타날 있는 모든 결과들의 집합

사건 : 표본공간의 부분집합

- 근원사건 : 사건 오직 개의 원소로만 이루어진 사건

 

사건 E 대한 확률


 

- 모든 사건 E 확률값은 0 1사이에 있다.

- 전체 집합 확률은 1이다

- 서로 배반인 사건들의 합집합은 확률의 사건들의 확률의 합이다.


  배반사건이란, 교집합이 공집합인 사건

 

2) 조건부 확률과 독립사건

조건부 확률 : 사건 A 일어났다는 가정하의 사건 B 확률

           , P(A) > 0 일때

 

사건 A, B   만족하면 

, A B 독립사건이면  사건 B 확률은 A 연관 없다

 

3) 확률변수와 확률분포

확률변수 : 특정값이 나타날 가능성이 확률적으로 주어짐

 정의역이 표본공간, 치역이 실수값인 함수

- 이산형 확률변수 : 사건 확률이 사건들이 속한 점들의 확률 합으로 표현

확률질량함수, 0보다 값을 갖는 점들

베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포

- 연속형 확률변수 : 사건 확률이 사건 위에서 0보다 값을 갖는 함수의 면적으로 표현

확률밀도함수, 점에서의 확률은 0 되고, 0보다 값을 갖는 구간의 확률값

균일분포, 정규분포, 지수분포, t-분포, -분포, F-분포

- 결합 확률분포 : 확률변수 X, Y 결합확률분포가 이산형인 경우 결합확률질량함수

    확률변수 X, Y 결합확률분포가 연속형인 경우 결합확률밀도함수

 

4) 확률변수의 기댓값과 분산

이산형 확률변수 기댓값 

연속형 확률변수 기댓값  면적을 적분

분산 

표준편차 

 

5) 백분위수


연속형 확률변수 X q분위 백분위수 (0q100)

 

 

4. 추정과 가설검정

모수 : 모집단의 확률분포 특징, 평균, 분산, 표준편차, 백분위수

통계적 추론

- 추정

- 점추정

- 구간추정

- 가설검정

 

1) 추정

가장 참값으로 여겨지는 하나의 모수 값을 택하는

모수가 특정한 값일 것이라고 추정하는

표본평균 : 모평균을 추정하기 위한 확률표본의 평균값 

표본분산 : 모집단 분산을 추정하기 위한 추정량 

 

2) 구간추정

점추정의 정확성을 보완

일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언

신뢰수준은 90, 95, 99% 확률 사용

: 한 개의 모집단에서 동일한 방법으로 동일한 자료의 확률표본은 추출하여 신뢰구간을 구하면

  해당하는 % 구간에서 미지의 모수를 포함한다는 의미

 

3) 가설검정

모집단에 대한 어떤 가설을 설정한 표본 관찰을 통해 가설의 채택여부를 결정하는 분석 방법

귀무가설 H0 : 대립가설과 반대의 증거를 찾기 위해 정한 가설

대립가설 H1 : 확실하게 증명하고 싶은 가설, 증거가 있어야 채택되는 가설, 결과가 값비싼 가설

 

검정통계량

- 표본평균

- 표본분산

- p-value : 귀무가설이 사실일 , 관측된 값보다 대립가설을 지지하는 검정통계량이 나올 확률

미리 주어진 기준값인 유의수준보다 작으면 기무가설을 기각 (0.01, 0.05, 0.1 1 사용)

- 기각역 : 귀무가설을 기각하는 통계량의 영역

 

1 오류 : 귀무가설H0 옳은데도 H0 기각

2 오류 : 귀무가설H0 옳지 않은데도 H0 채택


오류는 서로 상충관계가 있음, 1 오류의 크기 고정해서 2 오류가 최소가 되도록 기각역 설정

 

5. 비모수 검정

모수적 검정 방법 : 검정하고자 하는 모집단의 분포에 대한 가정하에 검정통계량과 분포 유도하여 검증

비모수적 검정 방법 : 모집단의 분포에 대해 아무 제약 가하지 않고 실시, 특정분포를 따른다고 가정 없음

ex) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 스피어만의 순위상관계수

 

차이점

- 가설의 설정에서 모수정 검정에는 가정된 분포의 모수에 대한 가설 설정하나

비모수 검정에는 가정된 분포가 없음, 단지 분포가 동일한지 형태 여부만 설정

- 모수적 검정에서는 관측된 자료를 이용한 표본평균, 표본분산을 이용해 검정 실시

  비모수적 검정에서는 관측값의 절대적 크기에 의존하지 않는 순위나 차이 부호를 이용해 검정

 

2 기초 통계 분석

 

1. 기술통계

자료를 요약하는 기초적 통계

> head(Animals)  # 내용 확인 가능, n 보여지기 가능
                    body brain
Mountain beaver     1.35   8.1
Cow               465.00 423.0
Grey wolf          36.33 119.5
Goat               27.66 115.0
Guinea pig          1.04   5.5
Dipliodocus     11700.00  50.0
> mean(Animals$body) #평균
[1] 4278.439
> median(Animals$body) #중앙값
[1] 53.83
> sd(Animals$body) #표분편차
[1] 16480.49
> var(Animals$body) #분산
[1] 271606563
> quantile(Animals$body) # 백분위수
       0%       25%       50%       75%      100%
    0.023     3.100    53.830   479.000 87000.000
> summary(Animals$body)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max.
    0.02     3.10    53.83  4278.44   479.00 87000.00

 

2. 회귀분석

 

1) 단순회귀분석과 다중회귀분석의 개념

회귀분석 : 하나, 이상의 변수들이 다른 변수에 미치는 영향에 대해 추론하는 통계기법

- 종속변수(반응변수) : 영향을 받는 변수

- 독립변수(설명변수) : 영향을 주는 변수

 

단순회귀분석 : 개의 독립변수와 개의 종속변수로 이루어져 있음, 오차항이 있는 선형관계

최소제곱추정량 : 제곱오차를 최소로 하는

 

다중회귀분석 : 두개 이상의 독립변수 사용하여 종속변수의 변화를 설명

 

체크사항

- 모형이 통계적으로 유의미한가

F통계량 확인, 유의수준 5%하에서 p-value 값이 0.05보다 작으면 유의하다

- 회귀계수들이 유의미한가

해당 계수의 t통계량과 p- 또는 이들의 신뢰구간 확인

- 모형은 얼마나 설명력이 있나?

결정계수 확인, 0~1사이 값을 가지며 높은 값일 수록 설명력이 높다

- 모형이 데이터를 적합하고 있는가?

잔차를 그래프로 그리고 회귀진단을 한다

- 데이터가 아래의 모형 가정을 만족 시키는가?

- 선형성 (독립변수의 변화에 따라 종속변수도 일정 크기로 변화)

- 독립성 (잔차와 독립변수이 값이 관련되어 있지 않음)

- 등분산성 (독립변수의 모든 값에 대해 오차들의 분산이 일정)

- 비상관성 (관측치들의 잔차들끼리 상관이 없어야함)

- 정상성 (잔차항이 정규분포를 이뤄야함)

 

2) 회귀분석의 종류


 

단순선형회귀분석 : lm(종속변수 ~ 반응변수, 데이터이름) 함수 사용

 

다중선형회귀분석 : lm(종속변수~독립변수+독립변수+독립변수)

 

Summary 함수를 통해 결정계수, F통계량, 잔차의 표준오차 확인 가능

F통계량 : F-statistic, p-value 유의수준 5% 하에서 추정된 모형인지 확인 가능

결정계수 : R-squared 0~1사이에서 1 가까워야 설명을 하고 있다고 판단

잔차의 표준오차 : 값들의 p-value 0.05보다 작으면 회귀계수의 추정치가 통계적으로 유의함

 

다항회귀분석 : 데이터를 산점도 확인했을 , 선형이 아니라 곡선형이면 다항회귀분석을 진행함

회귀식의 잔차도가 뚜렷한 곡선 패턴 오차항의 평균 0이고 분산이 일정하지 않음 (등분산성 오류)

2차함수를 사용할 , 다소 안정된 형태의 잔차를 보임

 

3) 최적회귀방정식의 선택 : 설명변수의 선택

반응변수, 종속변수 y 영향을 미치는 설명변수, 독립변수 x1, x2, x3…

회귀모형 선택의 2가지 원칙

- y 영향을 미칠 있는 모든 설명변수 x들을 y 값을 예측하는데 참여시킴

- 가능한 범위내에서 적은 수의 설명변수 포함, x 많아지면 관리하는게 노력이 필요함

서로 이율배반적인 원칙으로 타협이 이루어져야함, 적절한 설명변수 선택이 중요

 

모든 가능한 조합의 회귀분석

모든 가능한 독립변수들의 조합에 대해 회귀모형 고려해 AIC, BIC 기준으로 적합한 모형 선택

- AIC : k 모수의 개수 가장 작은 값을 갖는 모형


- BIC : n 자료개수의 차이, 가장 작은 값을 갖는 모형


 

단계적 변수선택

- 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 추가

가장 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 유의하면 추가, 아니면 중단

- 후진제거법 : 모든 후보를 포함한 상태로 출발하여 제곱합의 영향이 적은 변수부터 제거

이상 유의하지 않은 변수가 없을 때까지 설명변수 제거하고 모형 선택

- 단계별방법 : 전진선택법에 의해 추가하며 변수에 기인해 기존 변수 중요도가 약화되면 변수 제거

단계별로 추가 또는 제거되는 변수의 여부를 검토해 이상 없을 중단

 

Step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="선택법")

- lm : 회귀분석

- scope : 고려할 변수의 범위 설정

- direction : 변수 선택방법, forward, backward, both

 

3 다변량 분석

 

1. 상관분석

데이터 안의 변수 간의 관계

상관계수 : 상관관계를 알아보기 위한 계수

- 피어슨 상관계수 : 등간척도 이상으로 측정되는 변수간의 상관관계

- 스피어만 상관계수 : 서열척도인 변수들의 상관관계

 

양수일 때는 x 증가 하면서 y 증가하나, 음수일 때는 x 증가면 y 감소


 

1) 피어슨 상관계수

공분산의 크기는 X, Y 단위에 따라 영향을 받음


, 이고 X Y 독립이면 

 

cor : 두변수의 상관계수를 파악

Hmisc 패키지의 rcorr 함수 사용 : 모든 변수들 사이의 상관계수와 H0 : 대한 p-value 출력

rcorr(as.matrix(데이터세트), type="pearson")

 

cov : 공분산

 

2) 스피어만 상관계수

비선형적인 상관관계를 나타낼 있음, 변수를 단조 증가함으로 다른 변수에 나타나는 정도

변수를 모두 순위로 변환시킨 , 순위 사이의 피어슨 상관계수로 정의

     : x 순위 : y 순위

rcorr(as.matrix(데이터세트), type="spearman")

 

2. 다차원 척도법

여러 대상 간의 거리가 주어져 있을 , 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법

자료들의 상대적 관계를 이해하는 시각화 방법의 근간

특정변수들의 관측치는 없어도 개체간의 유사성에 의한 자료를 사용하여 산점도 표현 가능

 

cmdscale(데이터세트) : 거리를 2차원으로 계산하여 공간상에 표현

 

3. 주성분 분석

상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시는 방법

자료의 차원을 축약

주성분들은 서로 상관관계가 없고, 분산의 합은 변수들의 합과 같음

희생되는 정보가 가장 적은 방향으로 결정

 

princomp(데이터세트, cor=TRUE) : cor=TRUE 상관계수 행렬, cor=F 공분산행렬

→ summary, loadings(가중치, 주성분들의 로딩 벡터) 결과 확인 가능

 

주성분 개수 선택법

- 스크리 그림(Scree plot) : 주성분의 분산의 크기를 그림으로 표현

주성분 분산의 감소가 그래프상 급격히 줄면 미미한 지점에서 개수 산정

- 분산의 비율 70~90% 사이가 되는 주성분의 개수 선택

 

biplot : 변수의 화살표 방향이 비슷하고, 주성분과 평행하면 영향력이

 

4 시계열 예측

 

1. 정상성

시계열 자료 : 시간의 흐름에 따라서 관측된 데이터

정상성 : 시점에 상관없이 시계열의 특성이 일정하다는 , 시계열 분석은 정상성을 만족 해야함

평균이 일정하다

분산이 시점에 의존하지 않는다.

공분산은 단지 시차에 의존하고 시점 자체에는 의존 하지 않는다.

하나라도 만족하지 못할 경우 : 비정상 시계열 (대부분의 시계열자료는 비정상임)

 

정상성을 만족하는지 판단하는 과정

시계열 자료의 그림 파악

자료의 이상점과 개입 파악

정상성 만족 여부와 개략적인 추세 유무 관찰

이상점 이상점 제거, 개입 회귀분석 수행

추세를 보이는(평균이 일정하지 않으면) 차분 진행 : 시점의 자료값 - 시점의 자료값

여러시점 전의 자료를 빼는 것을 계절 차분, 계절성을 가진 비정상 시계열은 계절 차분 사용

시간에 따라 분산이 일정하지 않으면 변환 진행

 

2. 시계열 모형

 

1) 자기회귀 모형(AR모형) AP(p)

시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명 있음

시점의 시계열 자료에 번째 자료까지 영향을 주는지 알아내야

과거 1 시점 이전 자료만 영향 주면 1 자기회귀모형, AP(1)모형

 

백색잡음과정 : 대표적 정상 시계열, 시계열 분석에서 오차항 의미

독립이고 같은 분포를 따르며 평균이 0이고 분산이 확률변수

 

모형식별을 위해서는 자기상관함수(ACF), 부분자기상관함수(PACF) 이용

ACF 시차가 증가함에 따라 점차 감소, PACF p+1시차 이후 급격히 감소하여 절단된 형태


 

2) 이동평균모형(MA모형) MA(p)

시계열 자료를 모형화

시점 자료를 유한개의 백색잡음의 선형결합으로 표현 되어있기 때문에 항상 정상성 만족 가정 불필요

1 이동평균모형, MA(1) : 가장 간단한 이동평균모형, 같은 시점의 백색잡음 + 바로 시점의 백색잡음

 

PACF 시차가 증가함에 점차 감소, ACF p+1 시차 이후 절단된 형태


 

3) 자기회귀누적이동평균모형(ARIMA 모형)

대부분의 많은 시계열 자료, 기본적으로 비정상 시계열 모형

차분이나 변환을 통해 AR, MA, ARMA 모형으로 변환

ARIMA(p, d, q) :  차수 p = AR모형,  p = 0 → IMA(d,q)모형 → d 차분하면 MA(q)모형

    차수 d = ARMA모형, d = 0 → ARMA(p,q)모형, 정상성 만족

    차수 q = MA 모형, q=0 → ARI(p,d)모형 → d 차분하면 AR(p)모형

 

diff(데이터세트, differences=n) : n 차분, 그림으로 확인해야함

acf(데이터세트, lag.max=n) 자기상관함수 분석, n 적절한 설정 필요

pacf(데이터세트, lag.max=n) 부분자기상관함수 분석

forecast 패키지의 auto.arima(데이터세트) 함수 사용하여 적절한 모형 확인

arima(데이터세트, order=c(p,d,q)) 시계열 자료 결정 forecast 함수로 예측 자료 생성

 

4) 분해시계열

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

추세요인 : 자료가 어떤 특정한 형태를 취할 , 추세에 따르는 경우, T

계절요인 : 고정된 주기에 따라 자료가 변화할 경우, 요일, , 분기, 변화, S

순환요인 : 알려지지 않은 주기를 가지고 자료가 변화할 , C

불규칙요인 : 3가지 요인이 아닌 회귀분석에서 오차에 해당하는 요인, I

구성요인을 정확하게 분리하는 것이 중요, 이론적 약점 존재

decompose(데이터세트) : 4가지 요인 분석 가능


+ Recent posts