대부분 후기를 보니 필기시험쳤을때 핵심적인 내용과 주제어 위주로 나왔다고 합니다. 불안하신분들은 필기책을 아직 안버리셨다면 쭉 훑어보시는 것도 나쁘지 않을거 같습니다. 문제와 정답을 따로 적어두었습니다. 정답은 하단에 일괄적으로 적어두었습니다.
[1.] 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어로 데이터 저장에 고정된 테이블 스키마가 필요하지 않고 조인(Join) 연산을 사용할 수 없으며, 대규모 데이터를 저장할 수 있고, HBase, Cassandra 등의 제품이 있는 저장 기술은 무엇인가?
[2.] 다음 빈칸에 들어갈 알맞은 용어를 쓰시요. ( )은/는 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는 경우의 결측값이다.
[4.] 다음 괄호( ) 안에 들어갈 데이터 수집 기술은 무엇인가?
- 공공데이터는 공공데이터 포털의 ( ) 또는 파일을 통해 수집한다.
- ( )은/는 누구나 사용할 수 있도록 공개된 응용 프로그램 인터페이스이다.
- ( )은/는 응용 프로그램을 통해 실시간으로 데이터를 수신할 수는 데이터 수집 기술이다.
- 응용 프로그램 개발 시 외부 서비스가 ( )으로/로 제공되면 쉽게 연계할 수 있다. 예를 들어 날씨 정보, 항공 정보, 금융 정보 등과 관련된 최신 정보를 응용 프로그램에서 활용할 수 있다.
[5.] 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후, 그 위에 데이터를 추가하는 과대 표집(Over-Sampling) 방법은 무엇인가?
[6.] 시계열 분석을 위해서는 만족해야 특성으로 시점에 상관없이 시계열의 특성이 일정하다는 성질은 무엇인가? (평균이 일정하고, 분산이 시점에 의존하지 않고, 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는 특성을 가진다.)
[7.] 다음 빈칸에 들어갈 알맞은 용어를 쓰시오.
- ( )은/는 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스이다.
- 다양한 데이터 소스(Data source)로부터 데이터를 수집하여 ETL 과정을 거쳐 ( )에 저장한다.
[8.] 인공 신경망을 학습하는 데에 있어 은닉층 안의 일부 노드를 강제로 사용하지 않는 과정을 통해 과대 적합을 방지할 수 있는 기법은 무엇인가?
[9.] 데이터 분석을 위한 데이터를 데이터 저장소인 DW(Data Warehouse) 및 DM(Data Mart)으로 이동시키기 위해 다양한 소스 시스템으로부터 필요한 원본 데이터를 추출하고 변환하여 적장하는 기술은 무엇인가?
[10.] 다음이 설명하는 연속형 변수의 거리는 무엇인가?
- m차원 공간을 일반화한 거리이다. 이 공간에서는 일반적인 3차원의 공간과 1차원의 시간을 조합하여 4차원을 표현한다.
- m=1일 때 맨하탄 거리와 같고 m=2일 때 유클리드 거리와 같다.
- m이 정수가 아니어도 되지만 반드시 1보다 커야 한다.
[11.] X 값이 0보다 큰 경우 Y 값도 지속적으로 증가하고 X값이 0보다 작은 경우 0인, 시그모이드의 사라지는 경사 현상 문제를 해결하는 활성화 함수는 무엇인가?
[12.] 다음 빈칸에 들어갈 알맞은 용어를 쓰시오. ( )은/는 추가 정보의 사용 없이 특정 개인을 알아볼 수 없게 조치한 정보이다.
[13.] 혼동 행렬의 평가 지표 중에서 실제 ‘부정’인 범주 중에서 ‘부정’으로 올바르게 예측한 비율은 무엇인가?
[14.] 서포트 벡터 머신에서 완벽한 분리가 불가능할 때 선형적으로 분류를 위해 허용된 오차를 위한 변수를 무엇이라 하는가?
[15.] 다음이 설명하는 빈발항목집합(frequent itemsets) 및 연관규칙분석을 위한 알고리즘은 무엇인가?
- 가능한 모든 경우의 수를 탐색하는 방식을 개선하기 위하여 데이터들의 발생 빈도가 높은 것을 찾는 알고리즘
- 최소 지지도보다 큰 지지도 값을 갖는 빈발 항목 집합에 대해서만 연관 규칙을 계산하는 알고리즘
[16.] 새로운 데이터 클래스를 해당 데이터와 가장 가까운 k개 데이터들의 클래스로 분류하는 알고리즘으로, 특정 데이터에서 가까운 k개의 데이터의 거리를 구할 때 거리 유클리디안 거리, 맨하탄 거리, 민코우스키 거리 등을 사용할 수 있는 기법은 무엇인가?
[17.] 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형으로 주기나 불규칙성을 가지고 있는 시계열 데이터의 특성을 토대로 과거의 몇 개 관측치를 평균하여 전반적인 추세를 파악할 수 있는 시계열 모형은 무엇인가?
[18.] 괄호 ( ) 안에 들어갈 가장 올바른 용어를 쓰시오.
- ( )은/는 사용자의 의사결정에 도움을 주기 위하여, 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스이다.
[19.] 연관성 분석에서 규칙이 우연에 의해 발생한 것인지를 판단하기 위해 연관 규칙 내 항목의 연관성 정도를 측정하는 척도는 무엇인가?
[20.] 평균으로부터 t Standard Deviation 만큼 떨어져 있는 값들을 이상값(Outlier)으로 판단하고 t를 3으로 하는 이상값 검색 알고리즘은 무엇인가?
[21.] 군집 내의 오차 제곱합(Error Sum of Square)에 기초하여 군집을 수행하는 방법으로 군집의 병합으로 인한 오차 제곱 합의 증가량이 최소가 되는 방향으로 군집을 형성하는 군집 간 거리측정 방법은 무엇인가?
[22.] 다음은 회귀분석에서 어떤 문제에 대한 설명인가?
- 독립변수들간에 높은 선형관계가 존재할 때 발생하는 문제이다.
- 회귀분석에서 결정계수값이 높아 회귀식의 설명력은 높지만, 각 독립변수의 P-값(P-value)이 커서 개별 인자들이 유의하지 않는 경우 이 문제가 발생할 수 있다.
- 분산팽창요인(Variance Inflation Factor,VIF)이 10을 넘는 경우 발생하는 문제이다.
- 상관관계가 높은 독립변수중 하나 혹은 일부를 제거하여 이 문제를 해결한다.
- 주성분분석(PCA) 방법을 이용하여 설명력이 높은 변수를 선택하여 이 문제를 해결한다.
[23.] 실제로 ‘부정’인 범주 중에서 ‘부정’으로 올바르게 예측한 비율로 TN/(TN+FP)의 계산식을 갖는 혼동행렬 지표는 무엇인가?
[24.] 다음은 앙상블 모형에서 무엇에 대한 설명인가? 원 데이터 집합으로부터 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기(classifiers)를 생성한 후 그 결과를 앙상블하는 기법이다. 반복추출 방법을 사용하므로 같은 데이터가 한 표본에 여러 번 추출되거나 데이터가 추출되지 않을 수도 있다.
[25.] 텍스트 마이닝의 전처리 과정에서 어형이 변형된 단어로부터 접사등을 제거하고 그 단어의 원형 또는 어간을 분리해 내는 것을 무엇이라고 하는가?
[26.] 다음은 인공신경망에서 무엇에 대한 설명인가? 인공신경망 학습에서 최적의 가중치 매개변수 값을 찾기 위한 지표로 이것을 사용한다. 인공신경망의 학습은 이것이 최소가 되도록 하기 위해 가중치와 편향을 찾는 것이다. 출력한 값과 실제 값과의 오차에 대한 함수이다. 이것으로 평균제곱오차 또는 교차엔트로피 오차를 활용한다.
[27.] 아래와 같이 오분류표가 주어질 경우에 대한 재현율(Recall)를 구하는 공식을 쓰시오. (답안 작성예) ① + ② + ③
— | — | 실제값 | |
---|---|---|---|
— | — | True | False |
예측값 | True | 1 | 2 |
— | False | 3 | 4 |
[28.] 회귀모형의 계수를 추정하는 방법으로 잔차의 제곱합을 최소화하는 계수를 찾는 방법을 무엇이라고 하는가?
[29.] 사용자가 다차원으로 이루어진 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 시스템은 무엇인가?
[30.] 버섯을 구매한 고객이 치즈도 구매할 연관성에 대하여 분석할 때 지지도, 신뢰도, 향상도는 무엇인가? |항목|거래수| |—|—| |버섯|100| |버섯+치즈|300| |치즈|500| |페페로니|300| |합계|1200|
[31.] 코호넨에 의해 제시된 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화한 군집분석방법은 무엇인가?
[32.] 의사결정나무의 형성 과정 중 끝마디가 너무 많을 경우, 모형이 과대 적합(Over-fitting) 되어 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않게 되는 문제가 발생한다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Squared Error)등을 고려하여 적절한 수준의 ( ) 규칙을 제공해 주어야 한다.
[33.] 군집 타당성 지표(Clustering Validity Index) 중의 하나로 군집 내의 데이터 응집도(cohesion)와 군집간 분리도(separation)를 계산하며 계산된 결과는 -1에서 1 사이의 값을 가지고, 군집 분석이 잘 된 경우 1에 가까운 값을 가지는 지표는 무엇인가?
[34.] 표본 추출 방법 중 질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로 유사한 원소끼리 몇개의 층으로 나누어 각 층에서 랜덤 추출 하는 방법은 무엇인가?
[35.] 기업의 합리적인 의사결정을 방해하는 요소로서 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상을 무엇이라고 하는가?
[36.] 시계열 분석에서는 주어진 자료가 정상성을 만족해야 한다. 비정상시계열을 정상시계열 자료로 바꾸기 위해, 평균이 일정하지 않은 경우 현시점에서 이전 시점의 자료를 빼는 방법을 무엇이라고 하는가?
기타 : 2회 실기 단답형 문제 부스팅/배깅, 결측치 대치 방법의 종류(핫뎃,콜드덱,혼합덱), 회귀분석의 변수 선택 방법 (후진제거법,전진선택법), 모델 성능에 외적으로 영향을 주는 요소. (하이퍼파라미터), 모델 성능 측정 지표 fpr, tpr과 관련 있는 곡선의 이름. (ROC 곡선)
정답
[1.] NoSQL(Not Only SQL)
[2.] 완전 무작위 결측(MCAR; Missing Completely At Random)
[3.] 0.64(또는 16/25)
[4.] 오픈 API (Open API)
[5.] SMOTE(Synthetic Minority Over-sampling TEchnique)
[6.] 정상성(Stationary)
[7.] 데이터 웨어하우스 (DW; Data warehouse)
[8.] 드롭아웃(Drop Out)
[9.] ETL(Extract Transform Load)
[10.] 민코프스키(Minkowski) 거리
- 표준화 거리
- 변수의 측정단위를 표준화한 거리입니다.
마할라노비스 거리 - 변수의 표준화와 함께 변수 간의 상관성(분포 형태)를 동시에 고려한 통계적 거리입니다.
[11.] ReLU
[12.] 가명정보
[13.] 특이도(Specificity)
[14.] 슬랙 변수 (Slack Variable)
- SVM의 주요 구성요소
|구성요소|설명| |—|—| |결정 경계(Decision Boundary )|데이터 분류의 기준이 되는 경계| |초평면(Hyperplane)|n차원 공간의 ( n-1) 차원 평면, 데이터 분류를 위해서는 2개를 분리하는 결정영역이 있어야 하고, 결정영역을 결정짓기 위해 초평면 선택이 필요| |마진(Margin)|결정 경계에서 서포트 벡터까지의 거리(여유 공간), 최적의 결정 경계는 마진을 최대화(Maximize) 함| |서포트 벡터(Support Vector)|훈련데이터 중에서 결정경계와 가장 가까이에 있는 데이터들의 집합| |슬랙 변수(Slack Variables)|완벽한 분리가 불가능 할 때 선형적으로 분류를 위해 허용된오차를 위한 변수|
[15.] 아프리오리(A Priori)
[16.] KNN
[17.] 이동평균모형(Moving Average Model)
- 자기 회귀 모형(AR 모형; Auto-Regressive Model), 이동평균모형 (Moving Average model), 자기 회귀 누적 이동평균모형(ARIMA 모형 Auto Regressive Integrated Moving Average Model)은 다시 한번 개념을 확인
[18.] 데이터 웨어하우스(DW; Data Warehouse)
[19.] 향상도(Lift)
향상도 - 우연에 의해 발생한 것인지를 판단하기 위해 연관 규칙 내 항목의 연관성 정도를 측정하는 척도
지지도 - 전체 거래 중 항목 A와 B를 동시에 포함하는 거래의 비율
신뢰도 - A 상품을 샀을 때 B 상품을 살 조건부 확률에 대한 척도
향상도 - A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율20. ESD(Extreme Studentized Deviation
[21.] 와드연결법(Ward Linkage Method)
[22.] 다중공선성(Multicollinearity)
[23.] 특이도(Specificity)
|지표|계산식|설명| |—|—|—| |특이도(Specificity)|TN/(TN+FP)|실제로 ‘부정’인 범주 중에서 ‘부정’으로 올바르게 예측(TN)한 비율| |민감도(Sensitivity)=Recall|TP/(TP+FN)|실제로 ‘긍정’인 범주 중에서 ‘긍정’으로 올바르게 예측(TP)한 비율| |거짓 긍정률(FP Rate)|FP/(TN+FP)|실제로 ‘부정’인 범주 중에서 ‘긍정’으로 잘못 예측(FP)한 비율| |정밀도(Precision)|TP/(TP+FP)|‘긍정’으로 예측한 비율 중에서 실제로 ‘긍정’(TP)인 비율|
[24.] 배깅(bagging)
배깅(bagging)
- 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기(classifiers)를 생성한 후 그 결과를 앙상블하는 기법입니다.
부스팅(boosting)
- 배깅의 과정과 유사하나 부트스트랩 표본을 구성하는 재표본(re-sampling) 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출하는 기법입니다.
[25.] 스테밍(Stemming)
[26.] 손실함수(Loss function)
[27.] ① / (① + ③)
[28.] 최소제곱법 (Least Square Method)
[29.] OLAP(Online Analytical Processing)
. SCM(Supply Chain Management) : 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한것으로, 자재구매, 생산/재고, 유통/판매, 고객데이터로 구성되는 정보시스템
. CRM(Customer Relationship Management) : 기업의 내부 데이터로써 소비자들을 자신의 고객으로 만들 고, 이를 장기간 유지하고자 내부 정보를 분석하고 저장하는 데 사용하는 정보시스템
[30.] 지지도 1/4(=0.25), 신뢰도 3/4(=0.75), 향상도 9/8(=1.125)
지지도 = 300/1200 = 1/4 = 0.25
신뢰도 = 지지도 / P(A) = (300/1200) / (400/1200) = 3/4 = 0.75
향상도 = 신뢰도 / P(B) = { (300/1200) / (400/1200) } / (800/1200) = (3/4) / (2/3) = 9/8 = 1.125
[31.] SOM(Self-Organizing Maps)
[32.] 가지치기
정지규칙은 더이상 분리가 일어나지 않도록 현재 마디가 끝마디가 되도록 하는 규칙. 의사결정나무의 깊이를 지정, 끝마디의 레코드 수의 최소 개소를 지정하는 것
[33.] 실루엣(Silhouette)
[34.] 층화 추출법(Stratified Random Sampling)
군집 추출법(Cluster Sampling) (= 집락추출) : 모집단을 여러 군집으로 나누고, 일부 군집의 전체 또는 일부를 추출하는 방식, 내부적으로는 이질적, 외부적으로는 동질적인 방법
[35.] 프레이밍 효과
[36.] 차분(difference)
Comments powered by Disqus.