빅데이터분석기사

[빅데이터분석기사 필기] 실전모의고사1 오답노트

Jia H 2025. 3. 10. 17:48

 

[틀린 문제]

05. 다음 중 비정형데이터 수집에 사용되는 기술이 아닌 것은?

① Chukwa
② Sqoop
③ Flume
④ Scribe

더보기

② Sqoop

스쿱은 대용량 데이터 전송 솔루션으로 정형 데이터 수집에 사용하는 기술이다.

 

15. 데이터 웨어하우스 환경에서 정의된 접근계층으로 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 하는 것으로 데이터 웨어하우스의 부분이며, 대개 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 하는 것은?

① 크롤링
② 데이터 마트
③ 데이터 마이닝
④ 텍스트 마이닝

더보기

② 데이터 마트

데이터 마트(DM: Data Mart)는 데이터 웨어하우스(DW: Data Warehouse) 환경에서 정의된 접근 계층으로 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 한다. 데이터 마트는 데이터 웨어하우스의 부분이며, 대개 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 한다.

 

17. 다음 중 빈칸에 들어갈 알맞은 용어는 무엇인가?

인터넷상에 공개하는 서버에 부정 접속을 방지하기 위한 침입 차단 기능으로 인터넷 측과 사내 통신망측 사이에 (      )를 설치해서 침입 차단으로 여과 처리하면 월드 와이드 웹 등의 공개 서버에 부정 접속을 방지할 수 있다.

① CRM
② ERP
③ DMZ
④ ERD

더보기

③ DMZ

비무장 지대(DMZ)

 

23. 데이터 이상값 검출 방법으로 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적인 비교를 통해 이상값을 탐색하는 기법은?

① LOF
② ESD
③ iForest
④ K-평균 알고리즘

더보기

① LOF(Local Outlier Factor)

 

 

28. 불균형 데이터 처리 기법 중 언더 샘플링 기법에 해당하지 않는 것은?

① ENN
② SMOTE
③ CNN
④ OSS

더보기

② SMOTE(Synthetic Minority Over-Sampling Technique): 소수 클래스 데이터 인위적으로 생성

 

언더 샘플링 기법의 대표적인 기법

- 랜덤 언더 샘플링(Random Undersampling)

- ENN(Edited Nearest Neighbors): K개의 최근접 이웃 중 다수와 클래스가 다르면 제

- 토멕링크 방법(Tomek Links): 다수 클래스 샘플 제거

- CNN(Condensed Nearest Neighbors): 가까운 이웃 찾고 중요한 데이터 포인트만 선택하여 샘플 제거

- OSS(One-Sided Selection): 다수 클래스의 샘플 선택적 제거

 

 

35. 비정형 데이터 탐색 플랫폼 중 분산 환경에서 노드 간의 정보를 공유하고 락, 이벤트 등 보조 기능을 제공하는 프레임워크는?

① Pig
② 주키퍼
③ HDFS
④ Hive

더보기

② 주키퍼

분산 시스템의 메타 데이터 관리, 분산 락 관리, 노드 간 동기화 등 처리

 

① Pig: Hadoop 환경에서 데이터를 처리하기 위한 스크립트 언어로, 비정형 데이터 분석을 위한 플랫폼
③ HDFS: Hadoop Distributed File System으로, 대용량 데이터를 분산 저장하는 파일 시스템
④ Hive: Hadoop 기반의 데이터 웨어하우스 시스템으로, SQL-like 쿼리를 사용해 분산 데이터 분석을 수행하는 플랫폼

 

 

39. 다음 중 F분포의 특징이 아닌 것은?

① 확률변수 F는 항상 양(+)의 값만을 갖는 연속확률변수이다.
② 자유도를 2개 가지며, 2개의 자유도에 따라 분포의 모양이 변한다.
③ 오른쪽 꼬리 모양을 갖는 비대칭분포이다.
④ 평균은 분자의 자유도에 의해서만 결정되며, 분자의 자유도가 매우 크면 F분포의 평균은 1에 수렴한다.

더보기

④ 평균은 분자의 자유도에 의해서만 결정되며, 분자의 자유도가 매우 크면 F분포의 평균은 1에 수렴한다.

평균은 분모의 자유도에 의해서만 결정되며, 분모의 자유도가 매우 크면 F-분포의 평균은 1에 수렴한다.

분모 = 두 번째 표본 분산

항상 0 이상이기 때문에 오른쪽 꼬리가 길어짐

 

 

45. 데이터 분할 시 학습 과정에서 사용되는 데이터는?

① 학습용 데이터
② 평가용 데이터와 검증용 데이터
③ 학습용 데이터와 검증용 데이터 
④ 학습용 데이터와 평가용 데이터

더보기

③ 학습용 데이터와 검증용 데이터 

검증용 데이터 = Validation Data

평가용 데이터 = Test Data

 

55. 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형은?

① 자기회귀 모형
② 이동평균 모형
③ 자기회귀누적 이동평균모형
④ 분해시계열 모형

더보기

② 이동평균 모형

 

61. 회귀모형의 평가지표 중 회귀제곱 합계를 무엇이라 하는가?

① SSE
② SST
③ SSR
④ MAE

더보기

③ SSR(Sum of Squares for Regression)

 

① SSE (Sum of Squared Errors): 실제 값과 예측값 간의 차이(오차)의 제곱합, 설명 불가능
② SST (Total Sum of Squares): 총제곱 합계로, SST는 SSE + SSR
③ SSR (Sum of Squares for Regression): 회귀모델이 얼마나 잘 데이터를 설명하는지, 설명 가능
④ MAE (Mean Absolute Error): 평균절대오차로, 예측값과 실제값의 차이를 절대값으로 계산한 후 그 평균을 구한 값

 

 

69. 약한 모형을 순차적으로 적용해 나가는 과정에서 잘 분류된 샘플의 가중치는 낮추고 잘못 분류된 샘플의 가중치는 상대적으로 높여주면서 샘플 분포를 변화시키는 방법은?

① 배깅
② 랜덤 패치
③ 에이다 부스트
④ 그래디언트 부스트

더보기

③ 에이다 부스트

AdaBoost는 매개변수 최적화 기법이 아니라 앙상블 학습(Ensemble Learning) 기법 (부스팅 기법)

 

 

80. 다음 중 분석모형 리모델링 주기로 가장 적절하지 않은 것은?

① 데이터 마이닝은 분기별로 실시한다.
② 시뮬레이션은 반기별로 실시한다.
③ 최적화는 반기별로 실시한다.
④ 시뮬레이션은 주요 변경이 이루어지는 시점에서 실시한다.

더보기

③ 최적화는 반기별로 실시한다.

 

 

[다시볼문제]

16. 데이터 변환 기술 중 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법은?

① 평활화 기술
② 집계 기술
③ 일반화 기술
④ 정규화 기술

더보기

① 평활화 기술: 잡음(Noise) 제거, 추세(Trend) 부드럽게

+

② 집계 기술: 더 큰 단위로 묶어 요약
③ 일반화 기술: 더 상위 개념으로 변환
④ 정규화 기술: 스케일을 조정

 

20. 다음 중 구글 파일 시스템의 구성 요소에 해당하지 않는 것은?

① 데이터 노드
② 클라이언트
③ 마스터
④ 청크 서버

더보기

① 데이터 노드: HDFS에서 사용되는 개념(NameNode, DataNode)

+

② 클라이언트: 파일을 읽고 쓰는 사용자 또는 애플리케이션, 마스터 서버와 통신하여 파일의 메타데이터 정보 받아옴
③ 마스터/; 메타데이터(파일 위치, 청크 정보 등)를 관리하는 중앙 서버
④ 청크 서버: 데이터를 청크(Chunk) 단위로 저장하는 서버

 

27. 변수 변환 방법 중 데이터를 특정 구간으로 바꾸는 척도법은?

① 단순 기능 변환
② 비닝
③ 정규화
④ 표준화

더보기

③ 정규화

 

29. 정형 데이터에 대한 수집방식과 기술에 해당하지 않는 것은?

① ETL
② RSS
③ FTP
④ DBToDB

더보기

② RSS

 


33. 시공간 데이터의 타입 중 하나의 노드로 구성되는 공간 데이터 타입은?

① 포인트 타입
② 라인 타입
③ 폴리곤 타입
④ 폴라리안 타입

더보기

① 포인트 타입

+

② 라인 타입: 여러 점을 연결한 성 형태(버스 경로, 지진 단층선)
③ 폴리곤 타입: 닫힌 영역을 이루는 다각형 형태(행정 구역, 국립공언 영역)
④ 폴라리안 타입: 존재하지 않는 개념임.

 

41. 다음 중 데이터 마이닝 기반 분석 모델에 해당하지 않는 것은?

① 지도학습 모델
② 예측 모델
③ 군집화 모델
④ 연관규칙 모델

더보기

① 지도학습 모델

 

46. 다음 중 회귀 모형의 가정으로 옳지 않은 것은?

① 선형성
② 독립성
③ 등분산성
④ 상관성

더보기

④ 상관성

회귀 분석에서는 독립 변수 간의 다중공선성(상관관계)이 없어야 

 

47. 로지스틱 회귀모형에서 설명변수가 한 개인 경우 해당 회귀계수의 부호가 0보다 작을 때 표현되는 그래프의 모양은?

① 종 모양
② S자 모양
③ 역 S자 모양
④ U자 모양

더보기

③ 역 S자 모양

양수: S자

음수: 역 S

0: 확률 0.5 고정

 

 

78. 분석 결과에 따른 활용분야 분류에 있어서 초기 아이디어 개발 관점의 분류에 해당하지 않는 것은?

① 가치사슬 방식
② 마인드맵 방식
③ 친화 도표 방식
④ 피라미드 방식

더보기

① 가치사슬 방식

비즈니스 운영 및 최적화 관점이므로 초기 아이디어 개발 방식에는 포함되지 않음