3과목은 가장 범위도 넓고 
수학적, R용어적 지식도 필요하기에 
가장 오랜 기간 공부한 부분입니다. 
수식 부분 안나온다고해서 공부 안했는데 
맨하튼 거리가 나올줄 ㅋㅋㅋ 
당했네요 ㅋㅋㅋㅋ

객관식은 정확히 틀린건 5개, 정답이니 아닌지 모르는 것은 3개입니다.
주관식은 2개 틀렸습니다.
그래도 보수적으로 30문제중 20개 맞춰서 
과락기준 12개 이상 맞춘거니 과락은 면했습니다. ㅠㅠ 다행이네요 ㅠㅠ

 ((▲) 표시는 정확히 답인지 헷갈리는 문제에요! 그리고 모두 정답으로 확정 된것은 아닙니다!)



객관식1. 회귀모형의 변수선택법이 아닌것은? (▲)
정답 : 주성분 분석 
라쏘, 모든회귀분석 등이 보기로 나왔는데
라쏘와 주성분분석 중 어떤게 답이냐고 다들 엄청 말이 많으셨는데
전 모든회귀분석을 찍었죠 ㅋㅋㅋㅋㅋ 전 그냥 틀렸던
저는 전진선택, 후진제거, 단계선택만 외우고 갔고 모든회귀를 너무 쉽게 생각했었나봅니다.

객관식2. 회귀 그래프와 R명령어  (▲)
정답 : lm(Balance~Income+Student, data=Credit)
학생이 여/남이었는지 인지 아닌지였는지... 기억이 안나나 명목척도였었어요
그래서 고민이 되었죠 Income은 비율척도이고 학생은 명목척도라서
그래도 두 설명변수가 필요할것같아서 선택했었요.

객관식 3. 거리 활용한 측도에 대한 설명으로 틀린것은?
정답 : 마할라노비스
군집 방법에 대한 수식 설명이 나올줄은 몰랐어요
유클리드, 맨하튼 등의 수식들의 대해서 물어봤고
여기의 맨하튼 구하는 공식에 대한 설명 덕분에 주관식을 맞출수 있었던 감사했던 보기입니다.
마할라노비스는 변수의 표준화와 함께 변수간의 상관성을 동시에 고려한 통계적 거리입니다.
상관성을 고려할 수없다고 표시되어 틀렸다 라고 답하였습니다.

객관식 4. 데이터 정규성 확인 방법이 아닌것은?
정답 : Durbin-Watson
사피오 테스트, 히스토그램, 큐큐플랏이 보기었는데
큐큐플랏은 정확히 맞다는 것을 알았는데... 
히스토그램도 정규성 검사 가능하다는 것을 알았는데...
그런데 틀렸네요 ㅋㅋㅋㅋㅋ 

객관석5. 상관분석에 대한 설명이 잘못된 것은 ?
정답 : 종속변수 값을 예측하는 선형모형 추출 방법이다
피어슨 상관계수, 스피어만 상관계수에 관련하여 보기가 나왔고
상관관계에 대해서만 나오는거지 값을 예측하는 방법은 아니어서 틀렸고
저도 틀렸던거 같아요 ㅋㅋㅋ 전 3번을 찍었는데 저건 4번 보기거든요...
틀린 답이 기억이 안나네요 ㅜㅜ

객관식6. 데이터마이닝 단계 중 목적변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용 할 수 있게 데이터를 준비하는 단계는?
정답 : 데이터 가공
4-3 제1절의 단계별 추진단계입니다. 자주 나오는 부분이에요 특히 가공이요
만약 시간이 없다면 데이터 가공만이랑 
목정정의, 데이터준비, 데이터가공, 기법적용, 검증의 순서라도 외우고 가세요

객관식7. 연관규칙의 향상도 설명이 옳은것은?
정답 : 향상도가 1보다 크면 결과가 우수하다
4-3의 연관규칙의 향상도는 1이면 서로 독립 1보다 크면 양의 상관관계
그리고 향상도, 지지도, 신뢰도의 수식은 꼭 나오니 외우고 가세요

객관식8. R 데이터의 저장형식 내용으로 부적절한 것은?
정답 : as.vector 함수 적용시 데이터는 1행부터 차례로 생성된다
4-1의 R 부분에서 나온것입니다.
벡터, 행렬에 대한 질문에 대한 보기와 함께 나왔어요
저는 이문제를 다른 보기들은 다 정답이고 이 보기만 제가 모르는 부분이라 선택했습니다.

객관식9. 의사결정나무 그림보고 해석으로 부적절한 것은?
정답 : 끝 노드로 갈수록 불순도가 안좋아진다
4-3의 의사결정나무의 모형이 나오고
그 나무가 가지가 갈라질때의 숫자와 확률을 보고 기준점보다 크면 확률이 어느정도인지의 보기와
의사결정나무의 이론적 질문이 보기로 나왔습니다. 
의사결정나무가 진행될수록 불확실성은 점점 줄어들기에 불순도가 없어지죠. 순수도가 높아집니다.

객관식 10. 각 열이 서로 다른 타입의 데이터 구조가 가능한 것은?
정답 : 데이터프레임(dataframe)
4-1 R교재에는 벡터, 행렬, 데이터프레임만 나옵니다.
그렇기에 그 외의 질문이 답이라면 문제가 되겠죠? 
각 열에 서로 다른 타입을 가질 수 있는 것은 데이터 프레임만 입니다.
이쪽은 자주 나오니 꼭 기억해주세요

객관식 11. 비모수 검정의 특징이 아닌것은?
정답 : 평균, 분산을 이용한 검정을 이용한다 

4-2절의 제 1절 마지막 부분에 나오는 비모수 검정은 항상 저 보기가 답으로 나오더군요

비모수적 검정 방법 : 모집단의 분포에 대해 아무 제약 가하지 않고 실시, 특정분포를 따른다고 가정 없음

ex) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 스피어만의 순위상관계수


객관식 12. SOM에 대한 설명이 잘못된 것은?
정답 : SOM 은 역전파 알고리즘을 사용한다(이건 신경망입니다)

4-3의 제3절 군집분석, 비지도 학습 중 자기조직화지도, 코호넨 맵이라 불리는 SOM 입니다.

비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태 형상화

승자 독식 구조로 인해 경쟁층에는 승자 뉴런만 나타남

SOM 이용한 군집분석은 역전파 알고리즘과 달리, 하나의 전방패스 사용함으로 속도가 매우 바르고 실시간 학습처리가 가능이 보기였습니다.


객관식 13. 추정/가설검정에 대한 설명이 부적절한 것은? (▲)
정답 : 모르겠어요... 이건 채점결과 나오면 알 수 있을 듯 합니다. 
   저는 기각역을 택했어요 제 기억에는 기각역이 대립가설을 기각하는 통계량의 영역이 보기었던거같아서 
점주청, 구간추정, 유의수준에 대한 p-value, 기각역이 나왔습니다.
점 추정 : 특정값을 구하는 것
구간 추정 : 일정한 크기의 신뢰수준으로 모수가 특정 구역에 있다고 하는 것
p-value : 귀무가설이 사실일 , 관측된 값보다 대립가설을 지지하는 검정통계량이 나올 확률
기각역 : 귀무가설을 기각하는 통계량의 영역

객관식 14. Bias-variance trade off 관계에 대해 모델의 유연성이 크다면 분산과 편향은?(▲)
정답 :  높/낮
이것도 정확히 답이 책에 나와있는 것은 아닙니다.
다만 카페와 데이터에듀의 답을 비교해보니 정답이라고 했습니다.
전 유연성이 크니 분산의 넓이는 크다고 예상했고 트레이트 오프니 분산과 편향은 반비례관계라고 생각하여 선택했죠
이부분도 점수가 나와봐야 알 수 있을 듯 합니다.

객관식 15. Chickwts 데이터 주고 설명이 부적절한것은? 
정답 : 첨가물의 개수는 5개이다
다중 회귀분석 모델을 보여줍니다.
여기서 자유도 부분을 알아야하는데, 표본에 관련하여 기술통계값을 낼때는 변수 숫자에 따라 -n를 합니다.
그래서 표에 나왔는 것이 5라면 실제 분석에 쓰이는 데이터는 7개 입니다. (설명변수가 2개인 경우)
표에 나와있는 답에 자유도 부분을 더해야 합니다.

객관식 16. 보험사 해지할 예상 고객을 예측시 사용할때 쓸 적절한 기법은?(▲)
정답 : 랜덤 포레스트 라고 선택했으나 주성분 분석이라고도 하셔서..
이 부분도 정답이 정확히 책에 나와있지는 않았습니다.
다만 여러가지 요인이 나오고 그에 따른 고객 데이터 예측이라 저 또한 주성분분석과 랜덤포레스트를 고민했으나
주성분분석은 분류에 랜덤포레스트는 다양한 모델 분석을 통한 예측이 가능하여 우선 랜덤포레스트를 했으나
다른분들이 주성분 분석으로도 예측이 가능하다고(그리고 생각해보니 그러하여) 확답을 낼 수 없는 부분입니다.

객관식 17. 광고 채널 상관관계표 주고 설명한 내용중 잘못된 것은?
정답 : TV광고와 Sales는 증가하는 인과관계를 가진다
이건 명확히 자주 나오는 답입니다. 상관관계는 인과관계를 가지지 않습니다
반드시 이해해야하고 어떻게든 다른 문제로도 이부분은 꼭 질문하는 것 같습니다.

객관식 18. 회귀분석과 결정계수 설명이 부적절한 것은?
정답 : 총변동과 오차에 대한 변동 비율이다

4-2의 제2절 회귀분석 부분에서 나옵니다.

결정계수 : R-squared 0~1사이에서 1 가까워야 설명을 하고 있다고 판단

회귀계수는 해당 계수의 t통계량과 p- 또는 이들의 신뢰구간 확인

결정계수 확인, 0~1사이 값을 가지며 높은 값일 수록 설명력이 높다


객관식 19. 귀무가설이 사실인데 기각하는 1종 오류시 우리가 내린 판정이 잘못되었을 실제 확률은?
정답 : P-value
알파, 1-알파, 검정통계량이 보기였습니다.
알파냐 p-value냐에 대해서 사람들이 고민 많이 하셨는데 책에 우선은 p-value로만 나와있습니다.
이 또한 점수가 나와야 알 수 있을 듯 합니다.
그리고 객관식 13번의 보기와 비슷해서 답이 유추가 가능했던 문제였습니다.

객관식 20. 회귀분석에 대한 설명으로 부적절한 것은?
정답 : 귀무가설은 기울기가 0이 아니다
회귀분석의 귀무가설과 대립가설에 대한 부분이었습니다. 
기울기는 1이다 아니다를 이야기합니다. 0이 아닙니다.

객관식 21. 교차 판매/물건 배치등에 이용되는 기법은?
정답 : 연관분석
물건 교차 판매 및 배치에 대한 원리에 대해 이용되는 기법은 연관분석
이 문제는 기출로도 많이 나왔고 책의 문제로도 나왔습니다
꼭 알아두고 시험 보시면 좋아요!

객관식 22. R패키지 설명으로 틀린것은?
정답 : data.table에서 리스트로 변경되면 ddply를 사용 할 수 있다 (가 아니라 dlply입니다)
4-1 R파트의 제 2절 plyr, sqldf, reshape관련 보기가 나왔습니다.
이부분은 주관식으로도 자주 기출된다고 합니다. 기본적 이론만 외워도 좋을 것 같습니다.

객관식 23. y=c(1,2,3,NA)일때 3*y의 결과
정답 : 3,6,9,NA
저는 ㅋㅋㅋ 이 문제에 낚여서.... 헝 ㅜㅜㅜ 
우왕 쉽다. 이건 바로 에러지 에러가 난다로 선택했는데
문제를 더 꼼꼼히 읽어볼껄 그랬습니다.
mean(y) 로 했으면 에러였는데, 단순 곱셈이었습니다.

객관식 24. 기법 활용 분야가 다른것은?
정답 : SOM( 에만 비지도학습이고 나머지 보기는 전부 지도학습이었습니다)
4-3의 제 2절, 3절의 지도학습/비지도학습에 대한 질문이었습니다.
지도학습 : 로지스틱회귀분석, 신경망, 의사결정나무, 앙상블
비지도학습 : 계층형 군집분석, k-평균, 혼합분포군집, SOM 


주관식 1. 보기의 표를 보고 정확도(Accuracy) 를 구하여라
정답 :  (a+d)/(a+b+c+d) 
4-3 오분류표에 대한 문제고 이건 매번 나옵니다.
저는 정확도라는 글자만 보고 정확도를 구했는데
사실 책에는 영어로 Accuracy는  한글로는 정분류율 입니다. 
책에서는 정확도(Precision)는 TRUE 예측한 관측치 실제값이 TRUE 정도입니다.
영어를 놓치고 한글만 본 저의 문제겠지요 ㅠㅠ
하지만 책에는 이렇게 나와있으니 한글과 영어의 표기를 문제 출제시 맞춰주면 좋겠다는 바람입니다. 

주관식 2. 맨하턴거리 구하기
정답 : 2
각 좌표의 직각 거리 계산하면 되는데
(3,4) (4,5)의 거리여서 삼각형 상의 1 + 1 이라 2를 했는데
이게 답이라고 하더라구요 ㅋㅋㅋ 이건 객관식 3번의 도움이 없었다면 절대 풀수없었을 것 같습니다.

주관식 3. 재표본 과정에서 자료에 동일한 확률 부여하지 않음, 분류가 잘못된 데이터에 가중을 주어 표본을 추출
정답 : 부스팅
원래 기출은 랜덤포레스트나 배깅을 물어보던데 이번에는 부스팅이네요
이로써 앙상블 모델의 부분은 주관식으로 다 나왔어요 ㅋㅋㅋ 앞으로도 나올 가능성이 높겠네요

주관식 4. 추세를 보이는(평균이 일정하지 않으면) 시점의 자료값 - 시점의 자료값 하는 것은?
정답 : 차분
저는 AR모델이라고 적었지만 나와서 확인해보니 차분이 맞습니다
저는 틀렸지만 ㅜㅜ 여러분은 맞추시길 바랍니다.

주관식 5. 단순회귀분석의 최소제곱추정량 : 제곱오차를 최소로 하는 값은 방법은?
정답 : 최소자승법, 최소제곱법
4-2의 단순회귀 부분에 3줄 정도 아주 짧게 나온 부분인데 이게 주관식으로 나와서 당황했습니다.
하지만 어서 들었던 기억에 ㅋㅋㅋ 정답을 맞출 수 있었습니다. 

주관식 6. 기준점 = 150으로 하면 몇개의 군집이 되는가?
정답 : 3
이건 어렵게 보시지 말고 y축의 값에 150으로 쭉 선을 그르면 의사결정나무의 가지들이 몇개가 걸리는지 확인하시면 됩니다.


4과목은 R에대한 수식이 너무 많아서 고민이실텐데
ADSP는 정확한 수식보다는 각각의 분석모형에 대한 이해가 중요합니다.
사실 너무 어렵다면 R부분을 제외하고 나머지 모형을 이해만 하셔도 됩니다.
회귀분석, 의사결정나무 정도의 R의 결과값만 이해하는 정도만 된다면 어렵지 않을 것 같습니다.

이번 기출은 통계에서 많이 나왔습니다.
통계부분이 매우 중요합니다.
가채점 결과는 통과지만 이건 가!채!점! 이기 때문에 떨어질수도 있죠
그래서 떨어지고 다시 재 시험을 보게 된다면 통계부분을 더욱더 열심히 공부할 것입니다.

모두 좋은 결과 있으기실 바랍니다
다음은 제가 공부했던 교재들에 대한 포스팅을 할게요 : )


  1. 이은정 2018.11.06 16:24

    3장 객관식 19번 관련해서 질문드립니다.
    알파랑 p-value 중에 답이 무엇인가요?
    책은 오히려 a에 가까운 설명이 나와있는 것 같아서요

    • 가이아쥐 2018.11.11 21:01 신고

      답변 늦게 드려 죄송해요. 우선 제가 나온 성적을 보면 정답은 p-value가 맞은거로 생각되는데 이게 공식 답변이 아니라 저도 제 점수로 유추만 한거라 ㅠㅠ 데이터에듀라는 사이트에 가답안을 올려놓는데 질문하기 부분에 보면 그곳에서도 p-value로 답이 나와있습니다 같이한번 확인해보시면 좋을것같아요^^

    • KENNY 2019.06.21 08:41

      답은 p-value가 맞습니다. 알파는 참인 귀무가설을 기각하는 1종오류를 범할 최대 확률이지 실제 확률은 아닙니다

  2. Goni 2018.11.18 19:10

    14번 문제는 유연성이 크면 bias는 높아지고 분산은 낮아지지 않나요????ㅠ
    오버핏은 분산이 높아지고 bias가 낮아지는거니까..

    • 가이아쥐 2018.11.19 13:55 신고

      유연성이 크려면 분산이 넓게 분포되어야한다고 하더라구요
      사실 편향은.. 정확히 모르겠습니다 ㅜㅜ 하지만 이게 답이라고들 하더라구요 상급의 변별력 문제여서 정확한 답을 알려주지 않아서 말씀드리가 어렵네요

    • Goni 2018.11.23 19:13

      http://bywords.tistory.com/m/entry/%EB%B2%88%EC%97%AD-%EC%9C%A0%EC%B9%98%EC%9B%90%EC%83%9D%EB%8F%84-%EC%9D%B4%ED%95%B4%ED%95%A0-%EC%88%98-%EC%9E%88%EB%8A%94-biasvariance-tradeoff

      여기 잘 설명되어 있습니다.
      준비하시는 분들 혼동이 없었으면 좋겠습니다!!:)

    • 가이아쥐 2018.11.25 05:15 신고

      알려주셔서 감사합니다 저도 한번 더 확실히 보게 되네요^^

  3. 1 2019.05.31 13:55

    20번 모든 회귀분석 결과표에서의 가정은 기울기가 0입니다. 따로 Beta=c(=상수)의 검정을 할 수는 있지만요!

다른 시험에서는 이부분이 1과목보다 어렵다고 하였는데
이번 저희 18회는 2과목이 더 쉬웠던거 같은건
저만의 느낌일까요?
전 우선 다 맞은거 같은데...
이것도 나중에 답이 나와봐야 정확히 알 수 있을꺼같습니다.


객관식1. 데이터 거버넌스 메타데이터 구축/표준용어 설정/명명규칙 수립등을 하는 것은?
정답 : 데이터 표준화
3-2의 제 2절에 나와있어요.
데이터 거버넌스 구성요소(원칙, 조직, 프로세스)랑 흐름을 알아두면 좋은데
예전 복원에는 저장소관리가 나왔었어요. 저장소 관리는 워크플러우 및 관리용 응용 소프트웨어 지원 이라고
데이터 표준화는 표준용어설정, 명명규칙 등이 중요한 거라 순서를 보고 가시면 좋을 것 같아요.

객관식2. 하양식 문제 탐색 단계에 대한 설명이 아닌것은?
정답 :  유스케이스 활용보다 새로운 이유탐색이 우선
3-1의 제 2절에서 하양식 방식에서
비즈니스 모델 기반 문제탐색, 분석 유즈케이스 정의 등이 함께 나왔습니다.

객관식3.  과제 우선순위 결정 내용중 부적절한 것은?
정답 :  Value(가치)는 투자비용 요소이다.
3-2 제 1절의 가장 중요한 부분이죠
우선순위 설정의 전략적 중요도, ROI, 실행용이성은 백프로 매번 나와요
가치는 투자비용이 아니라 비즈니스 적 요소에요! 이부분도 진짜 매번 나오는데
두개가 이번에 겹쳐서 나왔어요.

객관식4. 분석 기획 고려사항 중 장애요소에 대한 부적절한 설명은?
정답 : 이해하기 쉬운 모델보다는 복잡하고 정교한 모형이 더 효과적이다
3-1의 제 1절에서 분석 기획 시 고려사항에서
가용한 데이터, 장애요소 해결과 더불어 적절한 유스케이스를 사용하는게 중요하다고 나와요
바퀴를 재발명하지 마라라는게 핵심이에요
저가항공사 예시를 들어서 단순화된 분석이 더 높은 효율을 냈다 라는부분에서 이게 답인거 같아요.

객관식5. 분석 대상은 모르나, 기존 분석방식이 활용할 경우는? 그리고 대상을 아에 새로 선정할 것은?
정답 : 통찰-발견
3-1의 제 1절 분석 기획 방향성 도출에서 분석대상에 관한 설명이었습니다.
이부분의 최적화, 솔루션, 통찰, 발견은 꼭 외워야하고 매번 나오는 문제에요
근데 그중에서도 통찰은 항상 나오는거 같아요, 객관식 주관식 전부 나오는거 같아요
꼭! 기억해야해용

객관식6. 분석 과제 수행시 고려하는 5요소가 아닌것은?
정답 : 데이터 분석 방법(Method)
3-1 제4절의 분석 프로젝트 관리 방안이에요
이부분의 5개는 자주나오는데 꼭 기억해야해요
데이터 사이즈, 데이터 복잡도, 스피드, 정확도와 복잡도, 정확도와 편차수준

객관식7. 정형 - 반정형 - 비정형 데이터 순서로 된 것은?
정답 : Demand Forecast - Competitor pricing - Email recode
이건... 찍었는데 맞은거 같아요. 수욕예측과 이메일 레코드는 확실해서
정형, 반정형, 비정형 문제는 변별력으로 상급 문제인데
찍은게 잘 맞은... 그런 느낌적인 느낌? ㅋㅋㅋㅋ

객관식8. 프로토 타이핑의 내용으로 적절한 것은?
정답 : 신속하게 해결책 모형 제시, 문제 좀 더 명확하게 인식, 식별
상향식 접근 방법 중 하나에요.
빠르고, 결과를 반복하고 개선하는거, 완전하지 못해도 해결책을 제시하는 모형이면 백프로 프로토타입 모델이에요
필요성도 중요해요 (문제에 대한 인식수준, 필요데이터 존재여부의 불확실성, 데이터 사용 목적의 가변성)

주관식 1. 문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 단계화 되어 수행하는 방식
정답 :  하향식 접근 방식
3-1의 3절 분석과제발굴에 있습니다.
하양식에 대한 설명이 객관식 2번 문제에 나와서 설마 또 ? 아에 답을 알려준게 나오나? 고민했던 문제에요 ㅋㅋㅋ
의외로 문제를 보다보면 겹치는 부분이 있어서 객관식 보기의 정답이 주관식 답이 되는 경우가 있나봐요
SQLD에서도 그런적이 있어요.

주관식 2. 데이터 분석 방법론, 머신러닝을 이용한 수행모델을 만들거나 데이터 분할 하는 부분은?
정답 : 모델링 
이것도 항상 데이터 분석 부분의 모델링이 제일 많이 나오는거같아요
이 부분에서는 알고리즘 설명서를 작성하고 의사코드 수준의 상세한 작성 필요까지 외워두면 좋을꺼같아요.


전반적으로 3-1이 더 많이 나온거 같아요 3-2절의 훨씬 문제 낼 곳이 많은데 ㅋㅋㅋ

그리고 원래도 3-2가 많이 나오는데

이번에는 3-1이 나오고 좀 쉬운 부분, 명확하게 공부해야하는 부분만 나온거 같아요

+ Recent posts