2018년 9월 21일 오후 2:30분 (원래는 3시 발표였는데 좀더 빨리나왔네요) 18회 결과가 나왔습니다.

SQL때도 보니까 항상 결과는 일찍 나왔던거 같아요

저는 비전공자이고 그냥 수학을 조금 좋아하지만 미적분도 모르는... 무지랭이 ㅋㅋㅋ 이었습니다.




공부방법

1, 3 과목은 그저 계속 읽으면서 익숙해지는 방법 밖에 없습니다.

주관식보다는 객관식을 다 맞게다는 마음으로 공부하다보면 주관식도 맞출 수 있어요

읽다보면 중요한 단어가 무엇인지 감이 와요 ㅋㅋㅋ

아 문제 풀다보면... 감이와요 ㅋㅋㅋ


4과목은 제일 시간이 많이 걸리지만

생각보다 어렵지 않게 나오는 부분이에요

다른 분들의 말을 들어보니 R과 통계는 어렵게 나와도 

정형데이터마이닝은 기본적인 이론만 나온다고 하셨는데

변별력을 요하는 부분만 아니면 (그정도는... 틀려도 합격에 문제가 없기에)

어렵다... 포기할까 하지마시고 이론만 빠삭 외워가면 도움 될 것이라 생각듭니다.


교재

교재는 제가 따로 포스팅 했습니다.

무조건... 실기 문제 풀이집은 풀고가세요

그럼 진짜 붙을 수 있어요!!!!!!!!!!!!!!

전 이번 시험의 합격의 공은 풀이집에 이 모든 영광을 돌립니다.





기타사항으로는

이번에도 동국대에서 시험봤어요

그리고 SQLD보다 ADSP가 시험장이 훨~~씬 많아서 경영관까지 가서 봤어요

1시 시험인데 12:50까지 입장했었고 (더 늦은분도 있는듯... ㅋㅋ)

컴퓨터 싸인펜은 여전히 공짜로 나누어 주셨어요

동국대 주차 가능합니다. 올라오셔서 주차하시면 됩니다.


또... 궁금한거 있음 댓글주세요 

아는 부분은 공유드릴게요 ^^


모든 분들이 합격하시길 기도합니다.

즐거운 추석 보내세요 


요새 SQLD와 ADSP 자격증의 인기가 높아져서 그런지

베스트셀러에 심심치 않게 올라와있고 계속 베스트셀러로 되어있고

아직 인기있는지 얼마 안되서 다른 분들이 교재 선정에 어려움이 있을 것 같아 도움 드리고자 이렇게 포스팅 합니다.


저는 공부할 때 교재 욕심도 있고, 많은 교재를 다양하게 보는 것을 좋아해서 총 4권의 책을 봤어요

책마다 교재의 장담점을 설명해드리고

마지막으로 추천해 드릴게요 

어디까지나 저의 주관적인 생각이고 의견이니 

직접 서점가서 보시는 것을 추천드립니다!!!!


1. 데이터분석 전문가 가이드

한국 데이터 분석 진흥원 (50,000원 정가)

장점

- 뭐니뭐니해도 시험을 주관하는 곳에서 낸 교재이기 때문에 가장 정확한 내용을 포함하고있음

- 상세하게 설명되어있고 4절의 R파트도 자세히 설명되어있음

단점

- 가격이 비싼만큼 무게도 어마어마함, 스캔을 하시거나 분철하시길 추천함

- 준전문가만 있는게 아니라서 불필요한 내용이 있지만, 전문가까지 보시는 분들에게는 반대로 장점이겠죠?

- 문제가 부실함, 각 장마다 연습문제가 5~10개정도 뿐임, 그리고 연습문제는 너무 쉬움

꼭 구매할 때 2017년 이후 버전으로 구매하셔야해요 이전버전이랑은 아주 많이 다름



2. 데이터분석 자격검정 실전문제

- 한국데이터 진흥원 (15,000원 정가)


장점

- 문제가 매우 많음

- 여기서 푼 문제가 진짜 이번 18회에 엄청엄청 많이 나왔음!!!! 이건 무조건 봐야했을 정도

- 답안지가 분리되어 제본되어있어서 공부하기 좋음

단점

- 정말 문제만 있음, 개념을 공부해야하면 다른 책이랑 병행하거나 인터넷 검색 필요



3. 데이터분석 준전문가 2018

- 데이터에듀 (27,000원 정가)


장점

- 교재와 병행되는 인터넷 강의가 있음 (하지만 전 수강하지 않았어요)

- 가장 오랫동안 데이터 준전문가에 대한 교재를 출판했고, 따로 홈페이지내에 기출 복원도 제공함

- 그동안의 기출 문제도 범위마다 제공해줌

단점

- 2017년 진흥원의 가이드책으로 나온 곳이랑 범위가 조금 다름 2019년 개정판은 변화되길

- 기출문제로 표시된 것 외의 직접 내신 문제는... 범위가 달라서인지.... 풀이를 추천하긴 어려움

- 맨뒤의 기출문제 및 모의고사의 문제 풀이 해설이 미약함



4. 데이터분석 한권으로 끝내기

- 황소걸음 아카데미 (23,000원 정가)

장점

- 2017년 진흥원 가이드에 나온 교재를 가장 요약 잘함, 기출에 잘 나오는 부분이 체크되어있었음

- 요즘 가장 최근에 나온 책

- 예상문제도 많고, 데이터진흥원 실전문제에서 나온 문제도 꽤 실려있음

단점

- 오탈자가 많음, 아무 많음, 아무래도 처음 나온 책이라 보니..

- 틀린답도 많음, 근데 어디서 오탈자를 확인해야할지 모르겠음 ㅜㅜ 질문을 어디다 해야할지....



나는 준 전문가 준비기간이 길고 공부를 깊게 하고싶다.

데이터진흥원가이드 + 실전문제 > 데이터에듀 = 한권으로 끝내기


나는 시간이 없고 빠르게 공부하고 싶다.

한권으로 끝내기 + 실전문제 > 데이터에듀 > 데이터 진흥원 가이드


나는 이론은 많이 알고있다. 그냥 문제만 풀고싶다.

실전문제 > 한권으로 끝내기 > 데이터 에듀 > 데이터 진흥원 가이드


무조건 데이터진흥원에서 출판한 2번에서 추천한 실전문제는 꼭 한권 푸시고 가세요

이것도 문제가 꽤 많이 때문에 한문제 한문제 보기까지 잘 숙지하고 가기 쉽지 않아요

하지만 진짜 많이 나온다는거

보기만 잘 봐도 답이 나온다는거 매우 중요합니다.


지난 17회에서 2017년 개정판이 아닌 그 이전의 가이드 책에서 나온 문제가 출제가 되어

3문제를 전원 정답한 사례가 있어서 데이터 진흥원에서는 무조건 그 범위내의 문제를 내기 위해

철저하게 관리하실 것으로 예상됩니다.

그러므로 꼭 범위 잘 확인하시고 공부하시길 바랍니다.

괜히 다른 부분 공부하고 시간 낭비하지 않으시길 ㅜㅜ


모두모두 합격하세요~~~



3과목은 가장 범위도 넓고 
수학적, R용어적 지식도 필요하기에 
가장 오랜 기간 공부한 부분입니다. 
수식 부분 안나온다고해서 공부 안했는데 
맨하튼 거리가 나올줄 ㅋㅋㅋ 
당했네요 ㅋㅋㅋㅋ

객관식은 정확히 틀린건 5개, 정답이니 아닌지 모르는 것은 3개입니다.
주관식은 2개 틀렸습니다.
그래도 보수적으로 30문제중 20개 맞춰서 
과락기준 12개 이상 맞춘거니 과락은 면했습니다. ㅠㅠ 다행이네요 ㅠㅠ

 ((▲) 표시는 정확히 답인지 헷갈리는 문제에요! 그리고 모두 정답으로 확정 된것은 아닙니다!)



객관식1. 회귀모형의 변수선택법이 아닌것은? (▲)
정답 : 주성분 분석 
라쏘, 모든회귀분석 등이 보기로 나왔는데
라쏘와 주성분분석 중 어떤게 답이냐고 다들 엄청 말이 많으셨는데
전 모든회귀분석을 찍었죠 ㅋㅋㅋㅋㅋ 전 그냥 틀렸던
저는 전진선택, 후진제거, 단계선택만 외우고 갔고 모든회귀를 너무 쉽게 생각했었나봅니다.

객관식2. 회귀 그래프와 R명령어  (▲)
정답 : lm(Balance~Income+Student, data=Credit)
학생이 여/남이었는지 인지 아닌지였는지... 기억이 안나나 명목척도였었어요
그래서 고민이 되었죠 Income은 비율척도이고 학생은 명목척도라서
그래도 두 설명변수가 필요할것같아서 선택했었요.

객관식 3. 거리 활용한 측도에 대한 설명으로 틀린것은?
정답 : 마할라노비스
군집 방법에 대한 수식 설명이 나올줄은 몰랐어요
유클리드, 맨하튼 등의 수식들의 대해서 물어봤고
여기의 맨하튼 구하는 공식에 대한 설명 덕분에 주관식을 맞출수 있었던 감사했던 보기입니다.
마할라노비스는 변수의 표준화와 함께 변수간의 상관성을 동시에 고려한 통계적 거리입니다.
상관성을 고려할 수없다고 표시되어 틀렸다 라고 답하였습니다.

객관식 4. 데이터 정규성 확인 방법이 아닌것은?
정답 : Durbin-Watson
사피오 테스트, 히스토그램, 큐큐플랏이 보기었는데
큐큐플랏은 정확히 맞다는 것을 알았는데... 
히스토그램도 정규성 검사 가능하다는 것을 알았는데...
그런데 틀렸네요 ㅋㅋㅋㅋㅋ 

객관석5. 상관분석에 대한 설명이 잘못된 것은 ?
정답 : 종속변수 값을 예측하는 선형모형 추출 방법이다
피어슨 상관계수, 스피어만 상관계수에 관련하여 보기가 나왔고
상관관계에 대해서만 나오는거지 값을 예측하는 방법은 아니어서 틀렸고
저도 틀렸던거 같아요 ㅋㅋㅋ 전 3번을 찍었는데 저건 4번 보기거든요...
틀린 답이 기억이 안나네요 ㅜㅜ

객관식6. 데이터마이닝 단계 중 목적변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용 할 수 있게 데이터를 준비하는 단계는?
정답 : 데이터 가공
4-3 제1절의 단계별 추진단계입니다. 자주 나오는 부분이에요 특히 가공이요
만약 시간이 없다면 데이터 가공만이랑 
목정정의, 데이터준비, 데이터가공, 기법적용, 검증의 순서라도 외우고 가세요

객관식7. 연관규칙의 향상도 설명이 옳은것은?
정답 : 향상도가 1보다 크면 결과가 우수하다
4-3의 연관규칙의 향상도는 1이면 서로 독립 1보다 크면 양의 상관관계
그리고 향상도, 지지도, 신뢰도의 수식은 꼭 나오니 외우고 가세요

객관식8. R 데이터의 저장형식 내용으로 부적절한 것은?
정답 : as.vector 함수 적용시 데이터는 1행부터 차례로 생성된다
4-1의 R 부분에서 나온것입니다.
벡터, 행렬에 대한 질문에 대한 보기와 함께 나왔어요
저는 이문제를 다른 보기들은 다 정답이고 이 보기만 제가 모르는 부분이라 선택했습니다.

객관식9. 의사결정나무 그림보고 해석으로 부적절한 것은?
정답 : 끝 노드로 갈수록 불순도가 안좋아진다
4-3의 의사결정나무의 모형이 나오고
그 나무가 가지가 갈라질때의 숫자와 확률을 보고 기준점보다 크면 확률이 어느정도인지의 보기와
의사결정나무의 이론적 질문이 보기로 나왔습니다. 
의사결정나무가 진행될수록 불확실성은 점점 줄어들기에 불순도가 없어지죠. 순수도가 높아집니다.

객관식 10. 각 열이 서로 다른 타입의 데이터 구조가 가능한 것은?
정답 : 데이터프레임(dataframe)
4-1 R교재에는 벡터, 행렬, 데이터프레임만 나옵니다.
그렇기에 그 외의 질문이 답이라면 문제가 되겠죠? 
각 열에 서로 다른 타입을 가질 수 있는 것은 데이터 프레임만 입니다.
이쪽은 자주 나오니 꼭 기억해주세요

객관식 11. 비모수 검정의 특징이 아닌것은?
정답 : 평균, 분산을 이용한 검정을 이용한다 

4-2절의 제 1절 마지막 부분에 나오는 비모수 검정은 항상 저 보기가 답으로 나오더군요

비모수적 검정 방법 : 모집단의 분포에 대해 아무 제약 가하지 않고 실시, 특정분포를 따른다고 가정 없음

ex) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 스피어만의 순위상관계수


객관식 12. SOM에 대한 설명이 잘못된 것은?
정답 : SOM 은 역전파 알고리즘을 사용한다(이건 신경망입니다)

4-3의 제3절 군집분석, 비지도 학습 중 자기조직화지도, 코호넨 맵이라 불리는 SOM 입니다.

비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태 형상화

승자 독식 구조로 인해 경쟁층에는 승자 뉴런만 나타남

SOM 이용한 군집분석은 역전파 알고리즘과 달리, 하나의 전방패스 사용함으로 속도가 매우 바르고 실시간 학습처리가 가능이 보기였습니다.


객관식 13. 추정/가설검정에 대한 설명이 부적절한 것은? (▲)
정답 : 모르겠어요... 이건 채점결과 나오면 알 수 있을 듯 합니다. 
   저는 기각역을 택했어요 제 기억에는 기각역이 대립가설을 기각하는 통계량의 영역이 보기었던거같아서 
점주청, 구간추정, 유의수준에 대한 p-value, 기각역이 나왔습니다.
점 추정 : 특정값을 구하는 것
구간 추정 : 일정한 크기의 신뢰수준으로 모수가 특정 구역에 있다고 하는 것
p-value : 귀무가설이 사실일 , 관측된 값보다 대립가설을 지지하는 검정통계량이 나올 확률
기각역 : 귀무가설을 기각하는 통계량의 영역

객관식 14. Bias-variance trade off 관계에 대해 모델의 유연성이 크다면 분산과 편향은?(▲)
정답 :  높/낮
이것도 정확히 답이 책에 나와있는 것은 아닙니다.
다만 카페와 데이터에듀의 답을 비교해보니 정답이라고 했습니다.
전 유연성이 크니 분산의 넓이는 크다고 예상했고 트레이트 오프니 분산과 편향은 반비례관계라고 생각하여 선택했죠
이부분도 점수가 나와봐야 알 수 있을 듯 합니다.

객관식 15. Chickwts 데이터 주고 설명이 부적절한것은? 
정답 : 첨가물의 개수는 5개이다
다중 회귀분석 모델을 보여줍니다.
여기서 자유도 부분을 알아야하는데, 표본에 관련하여 기술통계값을 낼때는 변수 숫자에 따라 -n를 합니다.
그래서 표에 나왔는 것이 5라면 실제 분석에 쓰이는 데이터는 7개 입니다. (설명변수가 2개인 경우)
표에 나와있는 답에 자유도 부분을 더해야 합니다.

객관식 16. 보험사 해지할 예상 고객을 예측시 사용할때 쓸 적절한 기법은?(▲)
정답 : 랜덤 포레스트 라고 선택했으나 주성분 분석이라고도 하셔서..
이 부분도 정답이 정확히 책에 나와있지는 않았습니다.
다만 여러가지 요인이 나오고 그에 따른 고객 데이터 예측이라 저 또한 주성분분석과 랜덤포레스트를 고민했으나
주성분분석은 분류에 랜덤포레스트는 다양한 모델 분석을 통한 예측이 가능하여 우선 랜덤포레스트를 했으나
다른분들이 주성분 분석으로도 예측이 가능하다고(그리고 생각해보니 그러하여) 확답을 낼 수 없는 부분입니다.

객관식 17. 광고 채널 상관관계표 주고 설명한 내용중 잘못된 것은?
정답 : TV광고와 Sales는 증가하는 인과관계를 가진다
이건 명확히 자주 나오는 답입니다. 상관관계는 인과관계를 가지지 않습니다
반드시 이해해야하고 어떻게든 다른 문제로도 이부분은 꼭 질문하는 것 같습니다.

객관식 18. 회귀분석과 결정계수 설명이 부적절한 것은?
정답 : 총변동과 오차에 대한 변동 비율이다

4-2의 제2절 회귀분석 부분에서 나옵니다.

결정계수 : R-squared 0~1사이에서 1 가까워야 설명을 하고 있다고 판단

회귀계수는 해당 계수의 t통계량과 p- 또는 이들의 신뢰구간 확인

결정계수 확인, 0~1사이 값을 가지며 높은 값일 수록 설명력이 높다


객관식 19. 귀무가설이 사실인데 기각하는 1종 오류시 우리가 내린 판정이 잘못되었을 실제 확률은?
정답 : P-value
알파, 1-알파, 검정통계량이 보기였습니다.
알파냐 p-value냐에 대해서 사람들이 고민 많이 하셨는데 책에 우선은 p-value로만 나와있습니다.
이 또한 점수가 나와야 알 수 있을 듯 합니다.
그리고 객관식 13번의 보기와 비슷해서 답이 유추가 가능했던 문제였습니다.

객관식 20. 회귀분석에 대한 설명으로 부적절한 것은?
정답 : 귀무가설은 기울기가 0이 아니다
회귀분석의 귀무가설과 대립가설에 대한 부분이었습니다. 
기울기는 1이다 아니다를 이야기합니다. 0이 아닙니다.

객관식 21. 교차 판매/물건 배치등에 이용되는 기법은?
정답 : 연관분석
물건 교차 판매 및 배치에 대한 원리에 대해 이용되는 기법은 연관분석
이 문제는 기출로도 많이 나왔고 책의 문제로도 나왔습니다
꼭 알아두고 시험 보시면 좋아요!

객관식 22. R패키지 설명으로 틀린것은?
정답 : data.table에서 리스트로 변경되면 ddply를 사용 할 수 있다 (가 아니라 dlply입니다)
4-1 R파트의 제 2절 plyr, sqldf, reshape관련 보기가 나왔습니다.
이부분은 주관식으로도 자주 기출된다고 합니다. 기본적 이론만 외워도 좋을 것 같습니다.

객관식 23. y=c(1,2,3,NA)일때 3*y의 결과
정답 : 3,6,9,NA
저는 ㅋㅋㅋ 이 문제에 낚여서.... 헝 ㅜㅜㅜ 
우왕 쉽다. 이건 바로 에러지 에러가 난다로 선택했는데
문제를 더 꼼꼼히 읽어볼껄 그랬습니다.
mean(y) 로 했으면 에러였는데, 단순 곱셈이었습니다.

객관식 24. 기법 활용 분야가 다른것은?
정답 : SOM( 에만 비지도학습이고 나머지 보기는 전부 지도학습이었습니다)
4-3의 제 2절, 3절의 지도학습/비지도학습에 대한 질문이었습니다.
지도학습 : 로지스틱회귀분석, 신경망, 의사결정나무, 앙상블
비지도학습 : 계층형 군집분석, k-평균, 혼합분포군집, SOM 


주관식 1. 보기의 표를 보고 정확도(Accuracy) 를 구하여라
정답 :  (a+d)/(a+b+c+d) 
4-3 오분류표에 대한 문제고 이건 매번 나옵니다.
저는 정확도라는 글자만 보고 정확도를 구했는데
사실 책에는 영어로 Accuracy는  한글로는 정분류율 입니다. 
책에서는 정확도(Precision)는 TRUE 예측한 관측치 실제값이 TRUE 정도입니다.
영어를 놓치고 한글만 본 저의 문제겠지요 ㅠㅠ
하지만 책에는 이렇게 나와있으니 한글과 영어의 표기를 문제 출제시 맞춰주면 좋겠다는 바람입니다. 

주관식 2. 맨하턴거리 구하기
정답 : 2
각 좌표의 직각 거리 계산하면 되는데
(3,4) (4,5)의 거리여서 삼각형 상의 1 + 1 이라 2를 했는데
이게 답이라고 하더라구요 ㅋㅋㅋ 이건 객관식 3번의 도움이 없었다면 절대 풀수없었을 것 같습니다.

주관식 3. 재표본 과정에서 자료에 동일한 확률 부여하지 않음, 분류가 잘못된 데이터에 가중을 주어 표본을 추출
정답 : 부스팅
원래 기출은 랜덤포레스트나 배깅을 물어보던데 이번에는 부스팅이네요
이로써 앙상블 모델의 부분은 주관식으로 다 나왔어요 ㅋㅋㅋ 앞으로도 나올 가능성이 높겠네요

주관식 4. 추세를 보이는(평균이 일정하지 않으면) 시점의 자료값 - 시점의 자료값 하는 것은?
정답 : 차분
저는 AR모델이라고 적었지만 나와서 확인해보니 차분이 맞습니다
저는 틀렸지만 ㅜㅜ 여러분은 맞추시길 바랍니다.

주관식 5. 단순회귀분석의 최소제곱추정량 : 제곱오차를 최소로 하는 값은 방법은?
정답 : 최소자승법, 최소제곱법
4-2의 단순회귀 부분에 3줄 정도 아주 짧게 나온 부분인데 이게 주관식으로 나와서 당황했습니다.
하지만 어서 들었던 기억에 ㅋㅋㅋ 정답을 맞출 수 있었습니다. 

주관식 6. 기준점 = 150으로 하면 몇개의 군집이 되는가?
정답 : 3
이건 어렵게 보시지 말고 y축의 값에 150으로 쭉 선을 그르면 의사결정나무의 가지들이 몇개가 걸리는지 확인하시면 됩니다.


4과목은 R에대한 수식이 너무 많아서 고민이실텐데
ADSP는 정확한 수식보다는 각각의 분석모형에 대한 이해가 중요합니다.
사실 너무 어렵다면 R부분을 제외하고 나머지 모형을 이해만 하셔도 됩니다.
회귀분석, 의사결정나무 정도의 R의 결과값만 이해하는 정도만 된다면 어렵지 않을 것 같습니다.

이번 기출은 통계에서 많이 나왔습니다.
통계부분이 매우 중요합니다.
가채점 결과는 통과지만 이건 가!채!점! 이기 때문에 떨어질수도 있죠
그래서 떨어지고 다시 재 시험을 보게 된다면 통계부분을 더욱더 열심히 공부할 것입니다.

모두 좋은 결과 있으기실 바랍니다
다음은 제가 공부했던 교재들에 대한 포스팅을 할게요 : )


+ Recent posts