제 1절 통계학 개론
1. 통계 분석 개요
1) 통계학의 정의
경제통계, 사회조사분석통계, 실험결과 분석 통계 등 다양한 형태
자료로부터 유용한 정보를 이끌어 내는 학문, 자료 수집과 정리, 이를 해석하는 방법 모두 포함
2) 모집단과 표본
모집단(=추출단위, 원소) : 유용한 정보의 대상이 되는 것, 우리가 알고자 하는 전체
- 유한모집단 : 유한 개의 개체로 이루어진 모집단
- 무한모집단 : 무한 개의 개체로 이루어진 모집단으로 보통의 개념적인 모집단 지칭
총 조사 : 모집단의 개체 모두 조사하는 방법 ex) 인구 주택 총조사
표본 : 모집단의 일부분
표본조사 : 일부분인 조사하여 모집단에 대해 추론하는 것
모수 : 모집단에 대해 알고자 하는 값
통계량 : 모수를 추론하기 위해 구하는 표본의 값들
3) 표본추출의 방법
모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출 방법
→ 분석결과 해석은 큰 차이가 발생
표본 추출 방법
- 단순랜덤추출법 : 랜덤으로 임의 번호를 선택하여 추출
- 계통추출법 : 일련 번호를 부여하고 k개씩 n개 구간으로 나누고 구간별 선택, ex)4, 14, 24, 34 ...
- 집락추출법 : 몇 개의 클러스터로 결합된 형태에서 집락을 랜덤으로 선택하고 그 집락에 임의 추출
- 층화추출법 : 이질적인 원소로 구성된 모집단에서 계층을 고루 대표할 표본을 추출하는 법
원소들을 서로 유사한 것끼리 몇 개 층으로 나눈 후, 각 층에서 표본 랜덤 추출
실험 : 표본 조사 이외의 자료를 수집하는 방법
특정 목적하에서 실험대상에게 처리를 가한후 그 결과를 관측해 자료를 수집
ex) 새로운 강의법과 기존 강의법을 실험한 후 성적 조사, 암치료제 효과 분석 등
4) 자료의 종류
측정 : 추출된 원소, 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
질적자료
- 명목척도 : 어느 집단에 속하는지 분류하는 척도
ex) 성별(남, 여), 출생지(서울, 부산 등)
- 순서척도 : 특성이 가지는 서열 관계를 관측하는 척도, 일정한 순서
ex) 서비스 만족도 5단계 구분
양적자료
- 구간척도 : 속성의 양을 측정하는 것, 숫자로 표현, 절대적인 원점이 없음
ex) 사이의 비율은 별 의미 없는 온도, 지수 등
- 비율척도 : 절대적 기준인 0이 존재하고, 모든 사칙연산 가능, 제일 많은 정보
ex) 무게, 나이, 연간소득, 제품가격 등 일반적인 자료 특성
2. 통계 분석
특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상집단에 대한 정보를 구하고
적절한 통계 분석 방법을 이용해 의사결정 하는 과정
통계적 추론 : 수집된 자료를 이용해 대상 모집에 대해 의사결정 하는 것
- 추정 : 대상 집단의 특성값(모수)는 무엇일까? 추측
- 가설검정 : 대상 집단에 대해 특정한 가설을 설정한 후 그 가설의 채택여부를 결정하는 것
- 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 수행하는 것
기술통계 : 수집된 자료를 정리, 요약하기 위해 사용되는 기초적인 통계 → 통계분석을 위한 사전단계
- 평균, 표준편차, 중위수, 최빈값, %
- 막대그래프, 원그래프, 꺽은선 그래프
3. 확률 및 확률분포
1) 확률의 정의
확률 : 특정사건이 일어날 가능성의 척도
표본공간 : 통계적 실험이 실시할 때 나타날 수 있는 모든 결과들의 집합
사건 : 표본공간의 부분집합
- 근원사건 : 사건 중 오직 한 개의 원소로만 이루어진 사건
사건 E의 대한 확률
- 모든 사건 E는 확률값은 0과 1사이에 있다. 즉,
- 전체 집합 의 확률은 1이다.
- 서로 배반인 사건들의 합집합은 확률의 각 사건들의 확률의 합이다.
배반사건이란, 교집합이 공집합인 사건
2) 조건부 확률과 독립사건
조건부 확률 : 사건 A가 일어났다는 가정하의 사건 B의 확률
단, P(A) > 0 일때
두 사건 A, B가 를 만족하면
즉, A과 B가 독립사건이면 사건 B의 확률은 A와 연관 없다
3) 확률변수와 확률분포
확률변수 : 특정값이 나타날 가능성이 확률적으로 주어짐
정의역이 표본공간, 치역이 실수값인 함수
- 이산형 확률변수 : 사건 확률이 사건들이 속한 점들의 확률 합으로 표현
확률질량함수, 0보다 큰 값을 갖는 점들
베르누이 확률분포, 이항분포, 기하분포, 다항분포, 포아송분포
- 연속형 확률변수 : 사건 확률이 사건 위에서 0보다 큰 값을 갖는 함수의 면적으로 표현
확률밀도함수, 한 점에서의 확률은 0이 되고, 0보다 큰 값을 갖는 구간의 확률값
균일분포, 정규분포, 지수분포, t-분포, -분포, F-분포
- 결합 확률분포 : 두 확률변수 X, Y의 결합확률분포가 이산형인 경우 → 결합확률질량함수
두 확률변수 X, Y의 결합확률분포가 연속형인 경우 → 결합확률밀도함수
4) 확률변수의 기댓값과 분산
이산형 확률변수 기댓값
연속형 확률변수 기댓값 면적을 적분
분산
표준편차
5) 백분위수
연속형 확률변수 X의 제 q분위 백분위수 (0≤q≤100)
4. 추정과 가설검정
모수 : 모집단의 확률분포 특징, 평균, 분산, 표준편차, 백분위수 등
통계적 추론
- 추정
- 점추정
- 구간추정
- 가설검정
1) 점 추정
가장 참값으로 여겨지는 하나의 모수 값을 택하는 것
모수가 특정한 값일 것이라고 추정하는 것
표본평균 : 모평균을 추정하기 위한 확률표본의 평균값
표본분산 : 모집단 분산을 추정하기 위한 추정량
2) 구간추정
점추정의 정확성을 보완
일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언
신뢰수준은 90, 95, 99% 확률 사용
: 한 개의 모집단에서 동일한 방법으로 동일한 자료의 확률표본은 추출하여 신뢰구간을 구하면
그 해당하는 %의 구간에서 미지의 모수를 포함한다는 의미
3) 가설검정
모집단에 대한 어떤 가설을 설정한 뒤 표본 관찰을 통해 그 가설의 채택여부를 결정하는 분석 방법
귀무가설 H0 : 대립가설과 반대의 증거를 찾기 위해 정한 가설
대립가설 H1 : 확실하게 증명하고 싶은 가설, 증거가 있어야 채택되는 가설, 결과가 값비싼 가설
검정통계량
- 표본평균
- 표본분산
- p-value : 귀무가설이 사실일 때, 관측된 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
미리 주어진 기준값인 유의수준보다 작으면 기무가설을 기각 (0.01, 0.05, 0.1 중 1개 사용)
- 기각역 : 귀무가설을 기각하는 통계량의 영역
제 1종 오류 : 귀무가설H0가 옳은데도 H0를 기각
제 2종 오류 : 귀무가설H0가 옳지 않은데도 H0를 채택
※ 두 오류는 서로 상충관계가 있음, 1종 오류의 크기 고정해서 2종 오류가 최소가 되도록 기각역 설정
5. 비모수 검정
모수적 검정 방법 : 검정하고자 하는 모집단의 분포에 대한 가정하에 검정통계량과 분포 유도하여 검증
비모수적 검정 방법 : 모집단의 분포에 대해 아무 제약 가하지 않고 실시, 특정분포를 따른다고 가정 할 수 없음
ex) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 스피어만의 순위상관계수
차이점
- 가설의 설정에서 모수정 검정에는 가정된 분포의 모수에 대한 가설 설정하나
비모수 검정에는 가정된 분포가 없음, 단지 분포가 동일한지 형태 여부만 설정
- 모수적 검정에서는 관측된 자료를 이용한 표본평균, 표본분산을 이용해 검정 실시
비모수적 검정에서는 관측값의 절대적 크기에 의존하지 않는 순위나 차이 부호를 이용해 검정
제 2절 기초 통계 분석
1. 기술통계
자료를 요약하는 기초적 통계
> head(Animals) #앞 내용 확인 가능,
n개 보여지기 가능
body brain
Mountain beaver 1.35 8.1
Cow 465.00 423.0
Grey wolf 36.33
119.5
Goat 27.66
115.0
Guinea pig 1.04 5.5
Dipliodocus 11700.00 50.0
> mean(Animals$body) #평균
[1] 4278.439
> median(Animals$body) #중앙값
[1] 53.83
> sd(Animals$body) #표분편차
[1] 16480.49
> var(Animals$body) #분산
[1] 271606563
> quantile(Animals$body) # 백분위수
0% 25%
50% 75% 100%
0.023 3.100
53.830 479.000 87000.000
> summary(Animals$body)
Min. 1st Qu.
Median Mean 3rd Qu.
Max.
0.02 3.10
53.83 4278.44 479.00 87000.00
2. 회귀분석
1) 단순회귀분석과 다중회귀분석의 개념
회귀분석 : 하나, 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론하는 통계기법
- 종속변수(반응변수) : 영향을 받는 변수
- 독립변수(설명변수) : 영향을 주는 변수
단순회귀분석 : 한 개의 독립변수와 한 개의 종속변수로 이루어져 있음, 오차항이 있는 선형관계
최소제곱추정량 : 제곱오차를 최소로 하는 값
다중회귀분석 : 두개 이상의 독립변수 사용하여 종속변수의 변화를 설명
※ 체크사항
- 모형이 통계적으로 유의미한가
F통계량 확인, 유의수준 5%하에서 p-value 값이 0.05보다 작으면 유의하다
- 회귀계수들이 유의미한가
해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간 확인
- 모형은 얼마나 설명력이 있나?
결정계수 확인, 0~1사이 값을 가지며 높은 값일 수록 설명력이 높다
- 모형이 데이터를 잘 적합하고 있는가?
잔차를 그래프로 그리고 회귀진단을 한다
- 데이터가 아래의 모형 가정을 만족 시키는가?
- 선형성 (독립변수의 변화에 따라 종속변수도 일정 크기로 변화)
- 독립성 (잔차와 독립변수이 값이 관련되어 있지 않음)
- 등분산성 (독립변수의 모든 값에 대해 오차들의 분산이 일정)
- 비상관성 (관측치들의 잔차들끼리 상관이 없어야함)
- 정상성 (잔차항이 정규분포를 이뤄야함)
2) 회귀분석의 종류
단순선형회귀분석 : lm(종속변수 ~ 반응변수, 데이터이름) 함수 사용
다중선형회귀분석 : lm(종속변수~독립변수+독립변수+독립변수)
Summary 함수를 통해 결정계수, F통계량, 잔차의 표준오차 확인 가능
F통계량 : F-statistic, p-value 유의수준 5% 하에서 추정된 모형인지 확인 가능
결정계수 : R-squared 0~1사이에서 1에 가까워야 설명을 잘 하고 있다고 판단
잔차의 표준오차 : 각 값들의 p-value 0.05보다 작으면 회귀계수의 추정치가 통계적으로 유의함
다항회귀분석 : 데이터를 산점도 확인했을 때, 선형이 아니라 곡선형이면 다항회귀분석을 진행함
회귀식의 잔차도가 뚜렷한 곡선 패턴 → 오차항의 평균 0이고 분산이 일정하지 않음 (등분산성 오류)
2차함수를 사용할 때, 다소 안정된 형태의 잔차를 보임
3) 최적회귀방정식의 선택 : 설명변수의 선택
반응변수, 종속변수 y에 영향을 미치는 설명변수, 독립변수 x1, x2, x3…
회귀모형 선택의 2가지 원칙
- y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 참여시킴
- 가능한 범위내에서 적은 수의 설명변수 포함, x가 많아지면 관리하는게 노력이 필요함
→ 서로 이율배반적인 원칙으로 타협이 이루어져야함, 적절한 설명변수 선택이 중요
① 모든 가능한 조합의 회귀분석
모든 가능한 독립변수들의 조합에 대해 회귀모형 고려해 AIC, BIC의 기준으로 적합한 모형 선택
- AIC : k 모수의 개수 가장 작은 값을 갖는 모형
- BIC : n 자료개수의 차이, 가장 작은 값을 갖는 모형
② 단계적 변수선택
- 전진선택법 : 중요하다고 생각되는 설명변수부터 차례로 추가
가장 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 유의하면 추가, 아니면 중단
- 후진제거법 : 모든 후보를 포함한 상태로 출발하여 제곱합의 영향이 적은 변수부터 제거
더 이상 유의하지 않은 변수가 없을 때까지 설명변수 제거하고 모형 선택
- 단계별방법 : 전진선택법에 의해 추가하며 그 변수에 기인해 기존 변수 중요도가 약화되면 변수 제거
단계별로 추가 또는 제거되는 변수의 여부를 검토해 이상 없을 시 중단
Step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="선택법")
- lm : 회귀분석
- scope : 고려할 변수의 범위 설정
- direction : 변수 선택방법, forward, backward, both
제 3절 다변량 분석
1. 상관분석
데이터 안의 두 변수 간의 관계
상관계수 : 상관관계를 알아보기 위한 계수
- 피어슨 상관계수 : 등간척도 이상으로 측정되는 두 변수간의 상관관계
- 스피어만 상관계수 : 서열척도인 두 변수들의 상관관계
양수일 때는 x가 증가 하면서 y도 증가하나, 음수일 때는 x가 증가면 y는 감소
1) 피어슨 상관계수
공분산의 크기는 X, Y의 단위에 따라 영향을 받음
단, 이고 X와 Y가 독립이면
cor : 두변수의 상관계수를 파악
Hmisc 패키지의 rcorr 함수 사용 : 모든 변수들 사이의 상관계수와 H0 : 에 대한 p-value 출력
rcorr(as.matrix(데이터세트), type="pearson")
cov : 공분산
2) 스피어만 상관계수
비선형적인 상관관계를 나타낼 수 있음, 한 변수를 단조 증가함으로 다른 변수에 나타나는 정도
두 변수를 모두 순위로 변환시킨 후, 두 순위 사이의 피어슨 상관계수로 정의
: x의 순위 : y의 순위
rcorr(as.matrix(데이터세트), type="spearman")
2. 다차원 척도법
여러 대상 간의 거리가 주어져 있을 때, 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법
자료들의 상대적 관계를 이해하는 시각화 방법의 근간
특정변수들의 관측치는 없어도 개체간의 유사성에 의한 자료를 사용하여 산점도 표현 가능
cmdscale(데이터세트) : 거리를 2차원으로 계산하여 공간상에 표현
3. 주성분 분석
상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시는 방법
자료의 차원을 축약
주성분들은 서로 상관관계가 없고, 분산의 합은 변수들의 합과 같음
희생되는 정보가 가장 적은 방향으로 결정
princomp(데이터세트, cor=TRUE) : cor=TRUE 상관계수 행렬, cor=F 공분산행렬
→ summary, loadings(가중치, 주성분들의 로딩 벡터)로 결과 확인 가능
주성분 개수 선택법
- 스크리 그림(Scree plot) : 각 주성분의 분산의 크기를 그림으로 표현
→ 주성분 분산의 감소가 그래프상 급격히 줄면 미미한 지점에서 개수 산정
- 총 분산의 비율 70~90% 사이가 되는 주성분의 개수 선택
biplot : 각 변수의 화살표 방향이 비슷하고, 주성분과 평행하면 영향력이 큼
제 4절 시계열 예측
1. 정상성
시계열 자료 : 시간의 흐름에 따라서 관측된 데이터
정상성 : 시점에 상관없이 시계열의 특성이 일정하다는 것, 시계열 분석은 정상성을 만족 해야함
① 평균이 일정하다
② 분산이 시점에 의존하지 않는다.
③ 공분산은 단지 시차에 의존하고 시점 자체에는 의존 하지 않는다.
→ 하나라도 만족하지 못할 경우 : 비정상 시계열 (대부분의 시계열자료는 비정상임)
정상성을 만족하는지 판단하는 과정
① 시계열 자료의 그림 파악
② 자료의 이상점과 개입 파악
③ 정상성 만족 여부와 개략적인 추세 유무 관찰
④ 이상점 → 이상점 제거, 개입 → 회귀분석 수행
추세를 보이는(평균이 일정하지 않으면) 차분 진행 : 현 시점의 자료값 - 전 시점의 자료값
여러시점 전의 자료를 빼는 것을 계절 차분, 계절성을 가진 비정상 시계열은 계절 차분 사용
시간에 따라 분산이 일정하지 않으면 변환 진행
2. 시계열 모형
1) 자기회귀 모형(AR모형) AP(p)
현 시점의 자료가 p 시점 전의 유한개의 과거 자료로 설명 될 수 있음
현 시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내야 함
과거 1 시점 이전 자료만 영향 주면 1차 자기회귀모형, AP(1)모형
백색잡음과정 : 대표적 정상 시계열, 시계열 분석에서 오차항 의미
독립이고 같은 분포를 따르며 평균이 0이고 분산이 인 확률변수
모형식별을 위해서는 자기상관함수(ACF), 부분자기상관함수(PACF) 이용
ACF는 시차가 증가함에 따라 점차 감소, PACF p+1시차 이후 급격히 감소하여 절단된 형태
2) 이동평균모형(MA모형) MA(p)
시계열 자료를 모형화
현 시점 자료를 유한개의 백색잡음의 선형결합으로 표현 되어있기 때문에 항상 정상성 만족 → 가정 불필요
1차 이동평균모형, MA(1) : 가장 간단한 이동평균모형, 같은 시점의 백색잡음 + 바로 전 시점의 백색잡음
PACF 시차가 증가함에 점차 감소, ACF는 p+1 시차 이후 절단된 형태
3) 자기회귀누적이동평균모형(ARIMA 모형)
대부분의 많은 시계열 자료, 기본적으로 비정상 시계열 모형
차분이나 변환을 통해 AR, MA, ARMA 모형으로 변환
ARIMA(p, d, q) : 차수 p = AR모형, p = 0 → IMA(d,q)모형 → d번 차분하면 MA(q)모형
차수 d = ARMA모형, d = 0 → ARMA(p,q)모형, 정상성 만족
차수 q = MA 모형, q=0 → ARI(p,d)모형 → d번 차분하면 AR(p)모형
diff(데이터세트, differences=n) : n번 차분, 그림으로 확인해야함
acf(데이터세트, lag.max=n) 자기상관함수 분석, n 적절한 값 설정 필요
pacf(데이터세트, lag.max=n) 부분자기상관함수 분석
forecast 패키지의 auto.arima(데이터세트) 함수 사용하여 적절한 모형 확인
arima(데이터세트, order=c(p,d,q)) 시계열 자료 결정 → forecast 함수로 예측 자료 생성
4) 분해시계열
시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
① 추세요인 : 자료가 어떤 특정한 형태를 취할 때, 추세에 따르는 경우, T
② 계절요인 : 고정된 주기에 따라 자료가 변화할 경우, 요일, 월, 분기, 년 변화, S
③ 순환요인 : 알려지지 않은 주기를 가지고 자료가 변화할 때, C
④ 불규칙요인 : 위 3가지 요인이 아닌 회귀분석에서 오차에 해당하는 요인, I
→ 각 구성요인을 정확하게 분리하는 것이 중요, 이론적 약점 존재
decompose(데이터세트) : 4가지 요인 분석 가능
'자격증 공방 > ADSP' 카테고리의 다른 글
ADSP 18회 기출문제 복원하기 - 과목 1 데이터 이해 (0) | 2018.08.29 |
---|---|
4-3 정형 데이터 마이닝 (1) | 2018.08.27 |
4-1 R 기초와 데이터 마트 (0) | 2018.08.27 |
3-2 분석 마스터 플랜 (0) | 2018.08.22 |
3-1 데이터 분석 기획의 이해 (0) | 2018.08.22 |