빅데이터분석기사

[빅데이터분석기사 필기] 데이터 정제

Jia H 2025. 2. 26. 16:24

데이터 전처리 유형

구분 유형   설명
데이터 정제 데이터 실수화
(Data Vectorization)
문자열, 범주형 데이터 등의 데이터를 컴퓨터가 이해할 수 있는 실수형으로 변환하는 과정
데이터 정제
(Data Cleansing)
속성에 비어 있는 데이터나 잡음, 결측값, 이상값, 모순된 데이터 등을 정합성이 맞도록 교정하는 작업
데이터 통합
(Data Integration)
서로 다른 데이터 세트가 호환 가능하도록 파일 통합
같은 객체, 같은 단위나 좌표로 데이터를 통합
분석 변수 처리 데이터 축소
(Data Reduction)
변수 선택
(Variable Selection)
해결하고자 하는 문제에 대해 유의미한 변수를 선택
통계학적으로 종속변수에 유의미한 독립변수를 선택
차원 축소
(Dimensionality Reduction)
샘플링, 차원축소, 특징(Feature) 선택 및 추출을 통해 데이터 크기를 줄이는 작업
파생변수 생성
(Derived Variable)
기존 변수에 특정 조건 혹은 함수 등을 활용하여 새로운 변수를 만들거나 기존 변수들을 조합하여 새롭게 변수를 만듦
데이터/변수 변환
(Data Transformation)
형식, 구조 변환
데이터 스케일링: 표준화, 정규화, 이산화, 집계 기법
불균형 데이터 
(Data Balancing)
특정 클래스의 데이터가 타 클래스의 데이터 수와 너무 차이가 날 때, 샘플링을 통해 이 비율을 맞추는 작업

 

 

 

데이터 오류의 원인

오류의 원인 설명
결측값
(Missing Value)
값이 존재하지 않고 비어있는 상태
노이즈
(Noise, 잡음)
잘못된 값
이상값
(Outlier)
나머지 부분과 상당히 다른, 많이 벗어난 작은 값이나 큰 값
아티팩트
(Artifact)
어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러
예) 카메라 렌즈에 얼룩이 묻어 있었다면 영상 데이터 획득에 있어 왜곡이 지속적으로 발생
모순, 불일치
(Inconsistent Values)
동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우
예) 주소지가 동일한 지역임에도 불구하고 어떠한 이유로 우편번호가 상이한 경우
중복
(Duplicate Data)
동일한 데이터가 여러 번 저장된 경우

 

 

 

결측값의 유형

유형 설명
완전 무작위 결측(MCAR)
(Missing Completely At Random)
결측값이 다른 변수들과 아무런 상관이 없는 경우
분석 시 편향되지 않아서 결측값이 문제가 되지 않는 경우
무작위 결측(MAR)
(Missing At Random)
다른 관측된 변수와 관련이 있지만 해당 변수의 실제 값과는 무관한 경우
다른 변수에 따라 조건부로 (무작위) 발생하는 경우
비 무작위 결측(NMAR)
(Not Missing At Random)
결과에 영향이 있는 변수 때문에 결측값이 발생되는 경우
결측값이 결과에 영향을 미치는 경우(무시할 수 없는 무응답 데이터 포함)

 

 

 

결측값 처리 절차

절차 설명
결측값 식별 원본 데이터의 결측값 형태를 파악(빈 값, Null 등)
결측값 부호화 파악된 결측값을 컴퓨터가 처리 가능한 형태로 부호화
- NA(Not Available): 기록 안 됨
- NaN(Not a Number): 수학적으로 정의되지 않은 값
- Inf(Infinite): 무한대
- NULL: 값이 비었음
결측값 처리 결측값이 존재하는 자료 형태나 속성에 맞춰 값을 대치하거나 삭제

 

 

 

결측값 처리 기법 - 삭제(Deletion)

기법 설명
단일값 삭제
(Pairwise Deletion)
결측값 자체 값만 삭제하고 다른 변수(속성)은 그대로 유지하는 방법
결측값 데이터가 다른 특성을 가지고 있어 일관성 없음
목록 삭제
(Listwise Deletion)
결측이 발생한 데이터가 포함된 행 혹은 열을 삭제하는 방법
다른 변수가 가지고 있는 정보 손실 발생(편향 발생 가능)
무작위 결측이면서 데이터가 충분할 경우 적합

 

 

 

결측값 처리 기법 - 대치(Imputation)

기법 설명
단순대치법
(Simple Imputation)
결측값을 특정값(평균값, 최빈값, 중앙값, 회귀식 등)으로 대치하는 방법
결측값을 가진 자료분석에서 사용하기 용이하고 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완
다중대치법
(Multiple Imputation)
결측값 추정을 여러 번 반복하여 대치된 데이터셋을 생성 후 결측값을 대치하는 방법
m번의 대치를 통해 m개의 가상적 완전자료를 만드는 방법
다중대치법 절차: 대치(Imputation Step) 분석(Analysis Step) → 결합(Combination Step)

 

 

 

단순대치법 종류

기법 설명
완전 분석법
(Complete Analysis)
결측값이 존재하는 레코드를 삭제하여 불완전한 자료를 무시하고 완전한 자료만 사용하여 분석하는 방법
삭제법 중 목록 삭제법과 동일한 방법
평균대치법
(Mean Imputation)
관측 또는 실험을 통해 얻어진  데이터의 평균으로 대치
비조건부 평균대치법 관측 데이터의 평균으로 대치
조건부 평균대치법 회귀분석을 활용한 대치법
단순 확률대치법
(Single Stochasitc Imputation)
평균대치법에서 추정량 표준오차의 과소추정 문제를 보완하고자 고안된 방법
평균대치법의 추정된 통계량으로 대치할 때 어떤 적절한 확률값을 부여한 후 대치
핫덱대치
(Hot-Deck)
변수들이 비슷한 값을 갖는 유사한 집단에서 임의의 한 개체를 선택해서 결측값을 대체하는 방법
콜드덱대치
(Cold-Deck)
핫덱대치와 유사하나 현재 진행 중인 연구가 아닌 외부에서 개체를 선택하여 결측값을 대체하는 방법
근접이웃대치
(Nearest Neighobor)
결측값이 범주형인 경우 이웃 데이터 중 최빈값으로 대체, 결측값이 연속형인 경우 중앙값으로 대체하는 방법

 

 

 

다중대치법 적용 절차 - IAC

단계 기법 설명
1단계 대치(Imputation Step) 각 대치 표본은 결측자료의 예측분포 또는 사후 분포에서 추출된 값으로 결측값을 대치
2단계 분석(Analysis Step) 같은 예측 분포로부터 대치값을 구하여 D개의 대치 표본을 구하게 되면 모두 분석 수행
3단계 결합(Combination Step) 모수 세타의 점 추정과 표준오차의 추정치를 구한 후 이들을 결합하여 하나의 결과를 제시

 

 

 

기타 결측값 처리 기법

기법 설명
수동으로 결측값 입력 결측값이 발생한 데이터를 다시 조사 및 수집하여 입력하는 방법
매우 고비용으로 소모적인 방법(결측값이 많은 경우 비현실적임)
전역상수(Global Constant)를
사용한 결측값 입력
특정 값으로 결측값을 대체하는 방법(단순하고 명확한 방법)
예) 결측값을 0으로 입력(단, 전역상수값이 분석 결과를 왜곡할 수 있음)
결측값의 무시 알고리즘이나 응용에 따라서 결측값이 발생한 속성을 무시하는 방법
예를 들어, 개체들 사이의 유사성 계산에 있어 많은 수의 속성이 있는 경우 이 중 하나의 속성이 없다면 이를 제외하고 유사성을 계산할 수 있도록 알고리즘을 조정하는 것
결측값의 추정 결측값이 발생한 데이터와 유사한 데이터를 사용하여 결측값을 추정하는 방법
보간법(Interploation 시계열 자료의 누락된 데이터를 보완하기 위해 사용하는 방법
결측값 대치는 Filling, Imputation이었다면 보간은 마치 그라데이션(Gradation) 부드럽게 채우기

 

 

 

이상값과 노이즈의 차이

구분 이상값 노이즈
의미 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터 관측 오류, 시스템에서 발생하는 무작위적인 오차
본래의 참값을 벗어나게 하는 오류
차이 관심 대상 관심이 없는 제거할 대상
사례 40대 평균 연봉이 7,000만원인데 그 중 연봉이 1,000만원인 사람, 3억원인 사람으로 인해 평균에 영향을 주는 상황 키를 몸무게로 잘못 기록함

 

 

 

데이터 이상값의 유형

구분 설명 사례
점 이상값 다른 데이터와 비교하여 차이가 큰 데이터가 발생하는 이상 이상 기후로 인해 7월 11일 온도가 영상 5도로 측정
상황적 이상값 상황에 따라 정상일 수도 있고 비정상일 수도 있는 데이터에 대해서 상황에 맞지 않는 데이터가 발생하는 이상 현재 성인의 키가 175cm인데 데이터는 현재는 정상이지만 300년전 175cm는 이상값임
집단적 이상값 개별 데이터는 정상처럼 보이지만 여러 데이터를 모아서 보면 비정상적으로 보이는 데이터 집단이 발생하는 이상 네트웍 트래픽 데이터가 특정 시점, 짧은 시간에 갑작스럽게 급증할 경우 공격 패턴일 수 있음

 

 

 

데이터 이상값의 발생 원인

구분 설명 사례
다른 클래스의 데이터
(표본 오류)
다른 클래스의 데이터가 섞여있는 경우 사람을 구분하는 데이터에 원숭이의 답이 포함됨
자연 변형
(Natural Variation)
실제 발생한 데이터이나 평균보다 크게 차이가 나는 데이터 평균 연봉 대비 비정상적으로 높은 연봉자
데이터 오류
(Data Errors)
실험오류: 실험조건 상이
측정오류: 데이터 측정시 발생
나이가 10살인데 몸무게를 2kg로 입력
고의적인 이상값
(처리 오류)
고의로 인한 오 입력 실제보다 낮은 몸무게를 기입

 

 

 

통계적 이상값 탐색 기법

구분 설명
Z검정
(Z-Test)
표준화 점수(Z-Score)를 이용하여 통계량의 분포를 표준정규분포로 근사할 수 있는 유의수준을 정하고, 유의수준을 벗어나는 값을 이상값으로 검출하는 방법(데이터가 많을 경우 +-3 표준편차 밖의 값들을 이상값으로 판단)
딕슨의 Q검정
(Dixon Q-Test)
오름차순으로 정렬된 데이터에서 범위에 대한 관측치 간의 차이에 대한 비율을 활용하여 이상값 여부를 검정하는 방법
데이터 수가 30개 미만인 경우에 적절한 방법이며 Robert Dean, Wilfrid Dixon 등은 딕슨의 Q검정을 하나의 자료에 대해 한 번만 수행하는 것을 제안함
데이터 수와 검정값(최소값 혹은 최대값)에 따라 검정통계량이 산출되며, 검정통계량이 임계값보다 큰 경우 이상값으로 결정함
그럽스 t검정
(Grubbs t-Test)
정규분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법이며, t분포에 근거한 임계치를 산출하여 검정통계량이 임계치보다 큰 경우 이상값으로 결정함
Generalized ESD Test
(Extreme Studentized Deviate)
그럽스 t검정을 일반화한 방법으로 여러 개의 이상값에 대한 검정이 가능한 방법
검정통계량은 내림차순으로 정렬하여 각 관측치별로 산출되며, 검정통계량이 t분포에 근거한 임계치보다 크면 해당 관측치를 이상값으로 결정함(일반적으로 임계치는 3 혹은 4로 선정)
카이제곱검정
(Chi-Square Test)
카이제곱검정은 데이터가 정규분포를 만족하나, 자료의 수가 적은 경우에 이상값을 검정
검정통계량은 자유도가 1인 카이제곱분포를 따르는 통계량이며, 통계량이 임계치보다 클 경우 한 개이상의 이상값이 있다고 판단

 

 

사분위수 범위 주요 수치

구분 설명
제1사분위수(1Quartile, Q1) 전체 데이터의 25% 지점에 해당하는 수
제2사분위수(2Quartile, Q2) 전체 데이터의 50% 지점에 해당하는 수, 중앙값(Median)을 의미
제3사분위수(3Quartile, Q3) 전체 데이터의 75% 지점에 해당하는 수
제4사분위수(4Quartile, Q4) 전체 데이터의 100% 지점에 해당하는 수
사분위수 범위(IQR)
(Inter Quartile Range)
제3사분위수와 제1사분위수 사이의 거리(Q3-Q1) 상자로 표현
최소값 제1사분위수에서 사분위수 범위에 1.5를 곱한 값을 뺀 위치(Q1 - 1.5 * IQR)
최대값 제3사분위수에서 사분위수 범위에 1.5를 곱한 값을 더한 위치(Q3 + 1.5 * IQR)
이상값(Outlier, 극단치) 최소값과 최대값을 벗어난 위치에 있는 값

 

 

 

회귀진단 이상값 탐색

구분 설명
레버리지
(Leverage)
레버리지는 독립변수의 각 관측치가 독립변수들의 평균에서 떨어진 정도를 나타내는 통계량
레버리지는 0과 1사이의 값을 가지며, 일반적으로 레버리지 평균의 2~4배를 초과하는 관측치를 이상값으로 정의함
표준화 잔차
(Standardized Residual)
표준화 잔차는 잔차를 표준화한 통계량임. 잔차는 추정된 회귀모델에 의해 산출된 예측치와 실제로 측정된 관측치의 차이를 의미하며, 일반적으로 표준화 잔차의 절대값이 2나 3을 초과하는 관측치를 이상값으로 정의함.
스튜던트 잔차
(Studentized Residual)
스튜던트 잔차는 잔차를 잔차의 표준오차로 나눈 통계량으로, t분포를 기반으로 이상값을 탐색함
절대적인 수치로는 스튜던트 잔차의 절대값이 3 또는 4를 초과하면 이상값으로 의심함
쿡의 거리
(Cook's Distance)
레버리지 통계량은 독립변수들 사이의 통계를 통해 이상값을 판단하는 반면에 쿡의 거리는 추정된 회귀모델을 기반으로 이상값을 탐지함
쿡의 거리는 추정된 회귀모델에 대한 각 관측치들의 전반적인 영향력 정도를 측정하기 위해 잔차와 레버리지를 동시에 고려한 척도임
쿡의 거리가 1보다 큰 경우, 강한 이상값으로 판단함
DFFITS
(Difference of Fits)
모든 관측치를 활용하여 추정된 회귀 모델의 예측치와 i번째 관측치를 제외한 후 추정된 회귀 모델의 예측치 변화 정도를 측정하는 방법으로, DFFITS 값이 클수록 이상값일 가능성이 높음
DFBETAS)
(Difference of Betas))
모든 관측치를 활용하여 추정된 회귀 모델의 회귀계수와 i번쨰 관측치를 제외한 후 추정된 회귀 모델의 회귀계수 변화 정도를 측정하는 방법임
데이터의 수가 적은 경우(n<=30), DFBETAS의 절대값이 1보다 크면 이상값으로 판단하며, 데이터의 수가 큰 경우(n>30), DFBETAS의 절대값이 2/n^(1/2)보다 클 경우 이상값으로 판단함 

 

 

 

거리 기반 이상값 탐색 기법

K-최근접이웃 알고리즘 기반 이상값 탐색

마할라노비스거리(Mahalanobis Distance)를 활용한 이상값 탐색

 

 

밀도 기반 탐색 기법

LOF(Local Outlier Factor)

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)

iForest(isolation Forest)

 

군집 기반 이상값 탐색 기법

K-평균 군집(K-Means)

 

삭제(Deletion)와 극단치 기준 적용

극단치 제거 기법

기법 설명
극단치 기준(Criteria) 제거 극단치 경계(최대값, 최소값)를 벗어나는 이상값을 제거
극단치 절단(Trimming) 극단치 경계를 기준으로 특정 비율만큼 제거하는 방법
예) 10% 절단: 상, 하단 5%에 해당하는 데이터 제거
극단치 조정(Winsorizing) 상단과 하단의 극단치를 극단치 경계값으로 조정
삭제 및 극단치 절단(제거) 방법보다 극단치 조정 방법을 이용하는 것이 데이터 손실율이 적어져 설명력도 높아짐

 

극단치 기준 적용 사례

극단치 경계 적용 예시 설명
평균과 표준편차 1) 평균에서 표준편차를 더하고 뺸 기준치 설정
예) A중학교 1학년 평균키: 170cm, 표준편차:10cm 경우,
하단 기준 160cm, 상단 기준 180cm로 설정
2) 극단치로 구분하여 삭제
예) 160cm보다 작은 값 혹은 180cm보다 큰 값은 극단치로 구분하여 삭제함
사분위수를 이용한 상자그림
(Box Plot)
1) 사분위수 범위를 기준으로 최대값과 최소값을 극단치 경계로 식별
2) 최대값보다 큰 값 혹은 최소값보다 작은 값은 극단치로 구분하여 삭제함