빅데이터분석기사

[빅데이터분석기사 필기] 데이터 정제 출제예상문제 오답노트

Jia H 2025. 2. 26. 16:51

[틀린 문제]

 

06. 데이터 전처리 단계에서 데이터의 이상값(Outlier)에 대한 설명으로 옳지 않은 것은?

① 최대값과 최소값
② 데이터 입력 시 오타로 인해 잘못 입력된 경우
③ 분석 목적에 부합되지 않아 처리해야 하는 경우
④ 부정사용방지 시스템에서 의도된 이상값

2번이 노이즈라 생각해서 틀렸으나 이상값인가봄..! 최대값과 최소값은 무조건 이상값으로 볼 수 없음.

 

 

16. 이상값의 발생 원인으로 적절하지 않은 것을 고르시오.

① 실험이나 측정의 오류와는 상관없이 이상값은 발생 가능하다.
② 다른 클래스의 데이터가 섞여 있는 경우 이상값이 발생 가능하다.
③ 실제 발생한 데이터이나 평균보다 크게 차이가 나는 데이터일 경우 발생 가능하다.
④ 고의로 인해 데이터를 오입력하는 경우 이상값이 발생할 수 있다.

음 무조건 상관이 있어야하는 건가? -> 역시 4번도 노이즈라 생각했으나 이상값인가봄

 

 

[헷갈린 문제]

 

11. 데이터의 결측값은 삭제 또는 대치의 방법으로 처리 가능하다. 다음 중 결측값을 처리하는 방법에 대해 부적절한 것은?

① 단일값 삭제는 결측치 자체 값만 삭제하고 다른 변수의 속성을 그대로 유지하는 방법으로 결측치 데이터가 다른 특성을 가져 일관성이 없다.
② 평균대치법은 관측 또는 실험을 통해 얻어진 데이터의 평균값으로 대치한다.
③ 완전분석법은 결측값이 존재하는 레코드를 삭제하여 불완전한 자료는 무시하고 완전한 자료만 사용하여 분석하는 방법이다.
④ 다중대치법은 여러 횟수에 걸쳐 단순 대치를 반복하여 결합 → 분석 → 대치 순으로 수행한다.

IAC: 통합, 분석, 결합