3과목은 가장 범위도 넓고
수학적, R용어적 지식도 필요하기에
가장 오랜 기간 공부한 부분입니다.
수식 부분 안나온다고해서 공부 안했는데
맨하튼 거리가 나올줄 ㅋㅋㅋ
당했네요 ㅋㅋㅋㅋ
객관식은 정확히 틀린건 5개, 정답이니 아닌지 모르는 것은 3개입니다.
주관식은 2개 틀렸습니다.
그래도 보수적으로 30문제중 20개 맞춰서
과락기준 12개 이상 맞춘거니 과락은 면했습니다. ㅠㅠ 다행이네요 ㅠㅠ
((▲) 표시는 정확히 답인지 헷갈리는 문제에요! 그리고 모두 정답으로 확정 된것은 아닙니다!)
객관식1. 회귀모형의 변수선택법이 아닌것은? (▲)
정답 : 주성분 분석
라쏘, 모든회귀분석 등이 보기로 나왔는데
라쏘와 주성분분석 중 어떤게 답이냐고 다들 엄청 말이 많으셨는데
전 모든회귀분석을 찍었죠 ㅋㅋㅋㅋㅋ 전 그냥 틀렸던
저는 전진선택, 후진제거, 단계선택만 외우고 갔고 모든회귀를 너무 쉽게 생각했었나봅니다.
객관식2. 회귀 그래프와 R명령어 (▲)
정답 : lm(Balance~Income+Student, data=Credit)
학생이 여/남이었는지 인지 아닌지였는지... 기억이 안나나 명목척도였었어요
그래서 고민이 되었죠 Income은 비율척도이고 학생은 명목척도라서
그래도 두 설명변수가 필요할것같아서 선택했었요.
객관식 3. 거리 활용한 측도에 대한 설명으로 틀린것은?
정답 : 마할라노비스
군집 방법에 대한 수식 설명이 나올줄은 몰랐어요
유클리드, 맨하튼 등의 수식들의 대해서 물어봤고
여기의 맨하튼 구하는 공식에 대한 설명 덕분에 주관식을 맞출수 있었던 감사했던 보기입니다.
마할라노비스는 변수의 표준화와 함께 변수간의 상관성을 동시에 고려한 통계적 거리입니다.
상관성을 고려할 수없다고 표시되어 틀렸다 라고 답하였습니다.
객관식 4. 데이터 정규성 확인 방법이 아닌것은?
정답 : Durbin-Watson
사피오 테스트, 히스토그램, 큐큐플랏이 보기었는데
큐큐플랏은 정확히 맞다는 것을 알았는데...
히스토그램도 정규성 검사 가능하다는 것을 알았는데...
그런데 틀렸네요 ㅋㅋㅋㅋㅋ
객관석5. 상관분석에 대한 설명이 잘못된 것은 ?
정답 : 종속변수 값을 예측하는 선형모형 추출 방법이다
피어슨 상관계수, 스피어만 상관계수에 관련하여 보기가 나왔고
상관관계에 대해서만 나오는거지 값을 예측하는 방법은 아니어서 틀렸고
저도 틀렸던거 같아요 ㅋㅋㅋ 전 3번을 찍었는데 저건 4번 보기거든요...
틀린 답이 기억이 안나네요 ㅜㅜ
객관식6. 데이터마이닝 단계 중 목적변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용 할 수 있게 데이터를 준비하는 단계는?
정답 : 데이터 가공
4-3 제1절의 단계별 추진단계입니다. 자주 나오는 부분이에요 특히 가공이요
만약 시간이 없다면 데이터 가공만이랑
목정정의, 데이터준비, 데이터가공, 기법적용, 검증의 순서라도 외우고 가세요
객관식7. 연관규칙의 향상도 설명이 옳은것은?
정답 : 향상도가 1보다 크면 결과가 우수하다
4-3의 연관규칙의 향상도는 1이면 서로 독립 1보다 크면 양의 상관관계
그리고 향상도, 지지도, 신뢰도의 수식은 꼭 나오니 외우고 가세요
객관식8. R 데이터의 저장형식 내용으로 부적절한 것은?
정답 : as.vector 함수 적용시 데이터는 1행부터 차례로 생성된다
4-1의 R 부분에서 나온것입니다.
벡터, 행렬에 대한 질문에 대한 보기와 함께 나왔어요
저는 이문제를 다른 보기들은 다 정답이고 이 보기만 제가 모르는 부분이라 선택했습니다.
객관식9. 의사결정나무 그림보고 해석으로 부적절한 것은?
정답 : 끝 노드로 갈수록 불순도가 안좋아진다
4-3의 의사결정나무의 모형이 나오고
그 나무가 가지가 갈라질때의 숫자와 확률을 보고 기준점보다 크면 확률이 어느정도인지의 보기와
의사결정나무의 이론적 질문이 보기로 나왔습니다.
의사결정나무가 진행될수록 불확실성은 점점 줄어들기에 불순도가 없어지죠. 순수도가 높아집니다.
객관식 10. 각 열이 서로 다른 타입의 데이터 구조가 가능한 것은?
정답 : 데이터프레임(dataframe)
4-1 R교재에는 벡터, 행렬, 데이터프레임만 나옵니다.
그렇기에 그 외의 질문이 답이라면 문제가 되겠죠?
각 열에 서로 다른 타입을 가질 수 있는 것은 데이터 프레임만 입니다.
이쪽은 자주 나오니 꼭 기억해주세요
객관식 11. 비모수 검정의 특징이 아닌것은?
정답 : 평균, 분산을 이용한 검정을 이용한다
4-2절의 제 1절 마지막 부분에 나오는 비모수 검정은 항상 저 보기가 답으로 나오더군요
비모수적 검정 방법 : 모집단의 분포에 대해 아무 제약 가하지 않고 실시, 특정분포를 따른다고 가정 할 수 없음
ex) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 스피어만의 순위상관계수
객관식 12. SOM에 대한 설명이 잘못된 것은?
정답 : SOM 은 역전파 알고리즘을 사용한다(이건 신경망입니다)
4-3의 제3절 군집분석, 비지도 학습 중 자기조직화지도, 코호넨 맵이라 불리는 SOM 입니다.
비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태 형상화
승자 독식 구조로 인해 경쟁층에는 승자 뉴런만 나타남
SOM을 이용한 군집분석은 역전파 알고리즘과 달리,단 하나의 전방패스 사용함으로 속도가 매우 바르고 실시간 학습처리가 가능이 보기였습니다.
객관식 13. 추정/가설검정에 대한 설명이 부적절한 것은? (▲)
정답 : 모르겠어요... 이건 채점결과 나오면 알 수 있을 듯 합니다.
저는 기각역을 택했어요 제 기억에는 기각역이 대립가설을 기각하는 통계량의 영역이 보기었던거같아서
점주청, 구간추정, 유의수준에 대한 p-value, 기각역이 나왔습니다.
점 추정 : 특정값을 구하는 것
구간 추정 : 일정한 크기의 신뢰수준으로 모수가 특정 구역에 있다고 하는 것
p-value : 귀무가설이 사실일 때, 관측된 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률
기각역 : 귀무가설을 기각하는 통계량의 영역
객관식 14. Bias-variance trade off 관계에 대해 모델의 유연성이 크다면 분산과 편향은?(▲)
정답 : 높/낮
이것도 정확히 답이 책에 나와있는 것은 아닙니다.
다만 카페와 데이터에듀의 답을 비교해보니 정답이라고 했습니다.
전 유연성이 크니 분산의 넓이는 크다고 예상했고 트레이트 오프니 분산과 편향은 반비례관계라고 생각하여 선택했죠
이부분도 점수가 나와봐야 알 수 있을 듯 합니다.
객관식 15. Chickwts 데이터 주고 설명이 부적절한것은?
정답 : 첨가물의 개수는 5개이다
다중 회귀분석 모델을 보여줍니다.
여기서 자유도 부분을 알아야하는데, 표본에 관련하여 기술통계값을 낼때는 변수 숫자에 따라 -n를 합니다.
그래서 표에 나왔는 것이 5라면 실제 분석에 쓰이는 데이터는 7개 입니다. (설명변수가 2개인 경우)
표에 나와있는 답에 자유도 부분을 더해야 합니다.
객관식 16. 보험사 해지할 예상 고객을 예측시 사용할때 쓸 적절한 기법은?(▲)
정답 : 랜덤 포레스트 라고 선택했으나 주성분 분석이라고도 하셔서..
이 부분도 정답이 정확히 책에 나와있지는 않았습니다.
다만 여러가지 요인이 나오고 그에 따른 고객 데이터 예측이라 저 또한 주성분분석과 랜덤포레스트를 고민했으나
주성분분석은 분류에 랜덤포레스트는 다양한 모델 분석을 통한 예측이 가능하여 우선 랜덤포레스트를 했으나
다른분들이 주성분 분석으로도 예측이 가능하다고(그리고 생각해보니 그러하여) 확답을 낼 수 없는 부분입니다.
객관식 17. 광고 채널 상관관계표 주고 설명한 내용중 잘못된 것은?
정답 : TV광고와 Sales는 증가하는 인과관계를 가진다
이건 명확히 자주 나오는 답입니다. 상관관계는 인과관계를 가지지 않습니다
반드시 이해해야하고 어떻게든 다른 문제로도 이부분은 꼭 질문하는 것 같습니다.
객관식 18. 회귀분석과 결정계수 설명이 부적절한 것은?
정답 : 총변동과 오차에 대한 변동 비율이다
4-2의 제2절 회귀분석 부분에서 나옵니다.
결정계수 : R-squared 0~1사이에서 1에 가까워야 설명을 잘 하고 있다고 판단
회귀계수는 해당 계수의 t통계량과 p-값 또는 이들의 신뢰구간 확인
결정계수 확인, 0~1사이 값을 가지며 높은 값일 수록 설명력이 높다
객관식 19. 귀무가설이 사실인데 기각하는 1종 오류시 우리가 내린 판정이 잘못되었을 실제 확률은?
정답 : P-value
알파, 1-알파, 검정통계량이 보기였습니다.
알파냐 p-value냐에 대해서 사람들이 고민 많이 하셨는데 책에 우선은 p-value로만 나와있습니다.
이 또한 점수가 나와야 알 수 있을 듯 합니다.
그리고 객관식 13번의 보기와 비슷해서 답이 유추가 가능했던 문제였습니다.
객관식 20. 회귀분석에 대한 설명으로 부적절한 것은?
정답 : 귀무가설은 기울기가 0이 아니다
회귀분석의 귀무가설과 대립가설에 대한 부분이었습니다.
기울기는 1이다 아니다를 이야기합니다. 0이 아닙니다.
객관식 21. 교차 판매/물건 배치등에 이용되는 기법은?
정답 : 연관분석
물건 교차 판매 및 배치에 대한 원리에 대해 이용되는 기법은 연관분석
이 문제는 기출로도 많이 나왔고 책의 문제로도 나왔습니다
꼭 알아두고 시험 보시면 좋아요!
객관식 22. R패키지 설명으로 틀린것은?
정답 : data.table에서 리스트로 변경되면 ddply를 사용 할 수 있다 (가 아니라 dlply입니다)
4-1 R파트의 제 2절 plyr, sqldf, reshape관련 보기가 나왔습니다.
이부분은 주관식으로도 자주 기출된다고 합니다. 기본적 이론만 외워도 좋을 것 같습니다.
객관식 23. y=c(1,2,3,NA)일때 3*y의 결과
정답 : 3,6,9,NA
저는 ㅋㅋㅋ 이 문제에 낚여서.... 헝 ㅜㅜㅜ
우왕 쉽다. 이건 바로 에러지 에러가 난다로 선택했는데
문제를 더 꼼꼼히 읽어볼껄 그랬습니다.
mean(y) 로 했으면 에러였는데, 단순 곱셈이었습니다.
객관식 24. 기법 활용 분야가 다른것은?
정답 : SOM( 에만 비지도학습이고 나머지 보기는 전부 지도학습이었습니다)
4-3의 제 2절, 3절의 지도학습/비지도학습에 대한 질문이었습니다.
지도학습 : 로지스틱회귀분석, 신경망, 의사결정나무, 앙상블
비지도학습 : 계층형 군집분석, k-평균, 혼합분포군집, SOM
주관식 1. 보기의 표를 보고 정확도(Accuracy) 를 구하여라
정답 : (a+d)/(a+b+c+d)
4-3 오분류표에 대한 문제고 이건 매번 나옵니다.
저는 정확도라는 글자만 보고 정확도를 구했는데
사실 책에는 영어로 Accuracy는 한글로는 정분류율 입니다.
책에서는 정확도(Precision)는 TRUE로 예측한 관측치 중 실제값이 TRUE인 정도입니다.
영어를 놓치고 한글만 본 저의 문제겠지요 ㅠㅠ
하지만 책에는 이렇게 나와있으니 한글과 영어의 표기를 문제 출제시 맞춰주면 좋겠다는 바람입니다.
주관식 2. 맨하턴거리 구하기
정답 : 2
각 좌표의 직각 거리 계산하면 되는데
(3,4) (4,5)의 거리여서 삼각형 상의 1 + 1 이라 2를 했는데
이게 답이라고 하더라구요 ㅋㅋㅋ 이건 객관식 3번의 도움이 없었다면 절대 풀수없었을 것 같습니다.
주관식 3. 재표본 과정에서 각 자료에 동일한 확률 부여하지 않음, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출
정답 : 부스팅
원래 기출은 랜덤포레스트나 배깅을 물어보던데 이번에는 부스팅이네요
이로써 앙상블 모델의 부분은 주관식으로 다 나왔어요 ㅋㅋㅋ 앞으로도 나올 가능성이 높겠네요
주관식 4. 추세를 보이는(평균이 일정하지 않으면)현 시점의 자료값 - 전 시점의 자료값 하는 것은?
정답 : 차분
저는 AR모델이라고 적었지만 나와서 확인해보니 차분이 맞습니다
저는 틀렸지만 ㅜㅜ 여러분은 맞추시길 바랍니다.
주관식 5. 단순회귀분석의 최소제곱추정량 : 제곱오차를 최소로 하는 값은 방법은?
정답 : 최소자승법, 최소제곱법
4-2의 단순회귀 부분에 3줄 정도 아주 짧게 나온 부분인데 이게 주관식으로 나와서 당황했습니다.
하지만 어서 들었던 기억에 ㅋㅋㅋ 정답을 맞출 수 있었습니다.
주관식 6. 기준점 = 150으로 하면 몇개의 군집이 되는가?
정답 : 3
이건 어렵게 보시지 말고 y축의 값에 150으로 쭉 선을 그르면 의사결정나무의 가지들이 몇개가 걸리는지 확인하시면 됩니다.
4과목은 R에대한 수식이 너무 많아서 고민이실텐데
ADSP는 정확한 수식보다는 각각의 분석모형에 대한 이해가 중요합니다.
사실 너무 어렵다면 R부분을 제외하고 나머지 모형을 이해만 하셔도 됩니다.
회귀분석, 의사결정나무 정도의 R의 결과값만 이해하는 정도만 된다면 어렵지 않을 것 같습니다.
이번 기출은 통계에서 많이 나왔습니다.
통계부분이 매우 중요합니다.
가채점 결과는 통과지만 이건 가!채!점! 이기 때문에 떨어질수도 있죠
그래서 떨어지고 다시 재 시험을 보게 된다면 통계부분을 더욱더 열심히 공부할 것입니다.
모두 좋은 결과 있으기실 바랍니다
다음은 제가 공부했던 교재들에 대한 포스팅을 할게요 : )