[틀린 문제]
01. 분석 변수 처리에 관한 설명으로 알맞지 않은 것은?
① 확보한 데이터를 사용하여 정보를 추가하는 일련의 과정이다.
② 새로운 데이터(관측치나 변수)를 추가하지 않고도 기존 데이터를 유용하게 만드는 방법론으로 볼 수 있다.
③ 변수의 개수에 대해 비즈니스의 의미와 특성을 보존하면서 변수를 축소시키는 과정이 중요하다.
④ 분석 변수 처리는 결과에 중요한 영향을 주지 않는 변수일 경우는 생략 가능하다.
✅ 데이터의 축소, 생성, 처리 과정을 거쳐 원하는 결과를 도출하는 기반이 되는 작업으로 반드시 필요하다. -> 다른 변수와 결합해서 유의미할 수도 있으니까
17. 다음은 변수 선택 방법에 대한 설명이다. 다음 중 옳은 것을 고르시오.
① 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법으로, 변수의 개수가 적은 경우 높은 설명력을 가진 결과를 도출해낼 수 있는 방법을 전체집합법이라고 한다.
② 모든 독립변수 가운데 기준 통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나씩 제거하면서 모형을 선택하는 방법을 전진선택법이라고 한다.
③ 변수를 하나씩 제거하며 모델의 성능을 향상시키는 기법으로, 변수의 개수가 너무 많은 경우 적용에 어려움이 있는 방법을 후진제거법이라고 한다.
④ 최적의 모델을 찾으며 연속적으로 변수를 추가 혹은 제거하는 방법을 단계별선택법이라고 한다.
18. 변수를 선택적으로 모델에 적용할 때의 이점에 대한 설명이다. 틀린 것을 고르시오.
① 복잡하거나 중복된 데이터가 사전에 제거되므로 머신러닝 알고리즘의 학습 속도가 더 빨라진다.
② 모델의 복잡성이 높아지고 데이터가 다양해짐으로 인해 더 오픈된 결과를 얻을 수 있으므로 인사이트를 얻는데 더 큰 도움이 된다.
③ 올바른 하위 집합을 선택할 수 있게 되어 모델의 정확도가 향상된다.
④ 데이터 과적합을 방지하여 일반화 성능을 향상할 수 있다.
✅ 복잡도가 낮아지고 중요 데이터를 활용하여 정확도가 높아진다.
19. 분석 효율성을 위해서는 비즈니스 의미와 특성을 보존하면서 변수를 줄이는 과정이 필요하다. 다음의 빈칸에 알맞은 말을 고르시오.
(A)는 확보하고 있는 데이터의 양을 포함하는 차원이 증가할수록, 데이터의 부족으로 인해 과적합 등의 문제로 모델의 성능이 저하되는 현상(필요 데이터의 품귀 현상)이다.
(B)는 다중회귀분석에서 독립변수들 간의 상관관계가 나타나는 문제로 같은 의미를 가진 변수가 두 개일 경우 중복된 변수는 제거가 필요하다.
① (A) 다중공선성, (B) 차원의 왜곡
② (A) 차원의 저주, (B) 다중완성성
③ (A) 차원의 왜곡, (B) 다중공선성
④ (A) 차원의 저주, (B) 다중공선성
23. 주성분분석(PCA) 기법에 대한 설명으로 옳은 것은?
① 불균형 데이터 처리 기법이다.
② 다수 변수들을 변수들 간의 상관관계를 분석하여 공통 차원들을 통해 축약한다.
③ 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현한다.
④ 상관행렬과 공분산행렬을 이용한다.
27. 아래의 설명 ㄱ~ㄹ 중 '파생변수'에 대한 설명만을 바르게 짝 지은 것은?
ㄱ. 사용자(분석자)가 특정 조건 혹은 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다.
ㄴ. 수집된 정보를 분석에 맞게 종합한 변수이다.
ㄷ. 특정 상황에만 유의미하지 않게 대표성을 나타나게 할 필요가 있다.
ㄹ. 합계, 횟수와 같이 간단한 구조이므로 자동화하여 상황에 맞게 또는 일반적인 자동화 프로그램으로 구축 가능하다.
① ㄱ, ㄷ
② ㄴ, ㄹ
③ ㄱ, ㄴ, ㄹ
④ ㄱ, ㄷ, ㄹ
✅ㄴ, ㄹ = 요약변수
[헷갈린 문제]
05. 범주형 변수에 관한 설명으로 알맞지 않은 것은?
① 관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나는 변수이다.
② 가능한 범주 안의 값만 취할 수 있는 데이터 변수이다.
③ 관측 결과는 숫자 형태로 측정 가능하며 이산형과 연속형으로 나뉘어진다.
④ 측정 대상을 분류하기 위해 이름 대신 숫자를 부여한 명목변수와 서열로 나타낸 서열변수로 나눌 수 있다.
✅ 범주형 변수: 명목변수, 서열변수 / 수치형 변수: 연속형 변수, 이산형 변수
08. 변수의 형태에 따른 연산이 알맞게 짝지어진 것은?
① 명목변수: 작다/크다
② 서열변수: 같다/다르다
③ 등간변수: 가/감
④ 비율변수: 가/감
✅ 명목변수: 같다/다르다, 서열변수: 작다/크다, 비율변수: 사칙연산
09. 다음 변수 처리 방법에 대한 설명 중 옳은 것을 고르시오
① 변수 선택이란 독립변수에 유의미한 영향을 미칠 것으로 생각되는 종속변수를 선택하는 과정이다.
② 정보가 많을수록 좋으며 모든 변수를 포함하여 분석하는 것이 좋은 결과를 보장한다.
③ 중복되거나 불필요한 변수 요인은 데이터를 복잡하게 하므로 제거하는 것이 효율적이다.
④ 변수의 수가 많은 경우 모든 변수는 종속변수와 관련이 있다.
11. 다음 중 래퍼기법에 해당하는 설명으로 가장 부적절한 것은?
① 변수의 일부만 사용하며 모델링을 수행하고, 그 결과를 확인하는 작업을 반복해 변수 집합을 선택한다.
② 모델링 과정을 통해 계산 속도가 느린 관련성을 측정하게 된다.
③ 성능이 가장 좋은 변수의 집합을 선택하고 과적합을 최소화할 수 있다.
④ 결과 확인을 반복하여 모델링을 수행하며, 모델의 과적합에 유의해야 한다.
✅ 임베디드기법: 성능이 가장 좋은 변수의 집합 선택, 과적합 최소화
12. 어떤 확률변수의 관측값으로부터 확률변수의 분포의 매개변수에 대해 유추할 수 있는 정보의 양을 이용한다면 어떠한 통계 기법에 해당하는가?
① 카이제곱검정
② 정보 이득(Information Gain)
③ 피셔 스코어(Fisher Score)
④ 큰 상관계수(Correlation Coefficient)
✅ 피셔 스코어: 확률변수의 관측값으로 유추 가능한 정보의 양을 이용
13. 통계량을 이용한 필터링 기법에 사용되는 측정 기법으로 부적절한 것은?
① 카이제곱검정
② 정보 이득
③ 피셔 스코어
④ 0에 가까운 평균
✅ 0에 가까운 분산
21. 대표적인 차원축소 기법에 대한 다음의 설명 중 옳지 않은 것은?
① 주성분분석은 여러 변수들의 선형 결합으로 이루어진 주성분이라는 새로운 변수를 만들어 기존의 변수들을 요약하여 축소하며, 각 주성분 간에 우선순위가 없이 대등하다.
② 다차원척도법은 데이터 속에 잠재해 있는 패턴, 구조를 찾아내어 소수 차원의 공간에 객체 간 근접성을 시각화하는 통계 기법으로 차원축소에 사용될 수 있다.
③ 차원축소 기법 중 하나인 요인분석은 여러 개의 변수들로 이루어진 데이터에서 변수들 간의 상관관계를 고려하여 서로 유사한 변수들을 묶어 새로운 잠재 요인을 추출해내는 분석 방법이다.
④ t-SNE는 데이터에서 지역 인접성을 보존하려고 시도하는 차원축소 알고리즘으로, 비선형적이며 비결정적이다.
✅ 주성분분석(PCA)은 고차원의 표본들을 선형 연관성이 없는 저차원의 공간으로 변환하는 기법이며, 가장 우선순위가 높은 주성분을 축으로 재조정한다.
24. 다음 차원축소 방법 중 판별분석과 관련된 설명이다. 옳은 것을 고르시오.
① 집단을 구분하면 설명변수를 통해 소속 집단을 예측하는 통계 기법이다.
② 데이터의 최적 표현의 견지에서 데이터를 최상으로 축소시키는 방법이다.
③ 선형판별분석은 데이터 평균을 학습해 분류하는 모델이다.
④ 가로축의 분석 차원을 경계인 서포트벡터를 선정하여 판별한다.
✅ 판별분석은 집단을 구분할 수 있는 설명변수를 통하여 집단을 구분하는 방법이다.
25. 다음 중 데이터 전처리 시 변수의 개수를 줄이는 차원축소를 위해 사용될 수 있는 방법으로 적절하지 않은 것은?
① 선형판별분석
② 회귀분석
③ 특이값 분해
④ 서포트벡터머신(SVM)
✅ 차원축소 기법: 주성분분석(PCA), 요인분석(FA), 특이값 분해(SVD), 다차원척도법(MDS), 정준상관분석(CCA), 판별분석(Discriminant Analysis), t-SNE
28. 아래의 설명 중 파생변수의 추가 방법에 해당되는 것을 모두 고르시오.
ㄱ. 한 값으로부터 특징들을 추출한다.
ㄴ. 한 레코드 내의 값들을 결합한다.
ㄷ. 다른 테이블의 부가적인 정보를 참조한다.
ㄹ. 거래 레코드를 분리한다.
ㅁ. 복잡한 표현 방식으로 변환한다.
① ㄱ, ㄷ
② ㄴ, ㄹ
③ ㄱ, ㄴ, ㄷ
④ ㄱ, ㄴ, ㅁ
✅ 거래 레코드는 요약해서 사용하고, 단순한 표현으로 변환해야 한다.
33. 아다신에 관한 설명 중 옮은 것을 고르시오.
① Borderline SMOTE와 동일하게 샘플링 개수와 데이터 위치에 따라 동일하게 설정한다.
② 소수 클래스 주변의 다수 클래스 수에 따라 고정적인 데이터 개수를 오버샘플링한다.
③ 스모트의 보더라인에 집중하면서 동시에 다수 클래스 데이터 주변에 존재하는 소수 클래스에 집중할 수 있다.
④ 소수 클래스 개수에서 다수 클래스 개수를 뺀 값을 곱한 뒤 SMOTE로 데이터를 증식한다.
✅ 아다신: 스모트와 유사하지만 샘플링을 데이터 위치에 따라 다르게 설정하는 방식이다.
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 데이터 탐색 기초 출제예상문제 오답노트 (0) | 2025.02.28 |
---|---|
[빅데이터분석기사 필기] 데이터 탐색 기초 (2) | 2025.02.28 |
[빅데이터분석기사 필기] Day8: 분석 변수 처리 (0) | 2025.02.27 |
[빅데이터분석기사 필기] 데이터 정제 출제예상문제 오답노트 (0) | 2025.02.26 |
[빅데이터분석기사 필기] 데이터 정제 (0) | 2025.02.26 |