빅데이터분석기사

회귀모델의 진단: 영향값과 이상값 진단방법

Jia H 2025. 4. 2. 19:43

🚀 모델 진단(Model Diagnostic)

- 선형성, 독립성, 정규성, 등분산성 진단

- 다중회귀분석에서는 다중공선성도 확인

✅️ 모델 진단

구분 설명
독립변수와 종속변수 간의 선형성 - 예측하고자 하는 독립변수 X와 종속변수 Y간에 선형성을 만족하는 특성을 의미
- 선형회귀분석에서 중요한 기본 가정(비선형회귀분석에서는 해당하지 않음)
오차의 독립성 - 예측의 오차값들은 서로 독립적이라는 가정, 예측값의 변화에 따라 오차항이 특정한 패턴을 가져서는 안 됨
- 일반적으로 더빈-왓슨(Durbin-Watson) 통계량을 이용하여 독립성을 검정
오차의 정규성 오차의 분포가 정규분포를 만족하는지 여부
샤피로-윌크 검정
(Shapiro-Wilk Test)
- 오차항이 정규분포를 추종하는지  알아보는 검정으로, 회귀분석에서 모든 독립변수에 대해서 종속변수가 정규분포를 추종하는지 확인하는 방법
콜모고로프-스미르노프 검정
(Kolmogorov-Smirnov Test)
- 경험적 누적분포함수(EDF: Emmpirical Distribution Function)에 기반한 적합도 검정 방법
- 자료의 평균/표준편차와 히스토그램을 표준정규분포와 비교하여 적합도 검정
오차의 정규성 Q-Q 플롯(Q-Q Plot)
(Quantiles-Quantiles Plot)
- 그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법
- 대각선 참조선을 따라서 관측값들이 분포하면 정규성 만족한다고 판단
등분산성 - 오차의 분산은 독립변수값과 무관하게 일정해야 한다는 가정
- 산점도를 그려서 잔차와 독립변수 간 아무런 관련성이 없게 점들이 무작위적으로 고르게 분포되어야 등분산성을 만족
- 레빈(Levene)과 바틀렛(Bartlett) 검정 등 이용
다중공선성 - 독립변수들 간에 강한 상관관계가 나타나는 문제
- 각 독립변수의 회귀계수가 종속변수에 미치는 영향력을 올바르게 설명하지 못하게 됨
- 해결방안: 독립변수 간 상관계수 확인, 결정계수(R^2) 확인, 분산팽창요인(VIF) 확인

 

 

🚀 데이터 진단(Data Diagnostics, 자료 진단)

- 데이터 진단이 필요한 데이터를 영향값(Influential Data)와 이상값(Outlier)으로 구분

- 영향값과 이상값은 모두 다른 관측값에 비해 잔차가 큰 관측값이라는 점에서 공통점이 있으나

- 이상값: 비교할 대상(독립변수 관계 속에서)이 있어 그 값들에 비해 값이 매우 크거나 작아 회귀계수 추정값을 변화시킴

- 영향값: 이상값과 동일하게 회귀계수 추정값을 변화시키지만 비교 대상이 되는 관측값이 없으므로 이상값인지 판단할 수 없는 경우

 

✅️ 영향값과 이상값 진단방법

방법 설명
레버리지
(Leverage)
- 독립변수의 각 관측값이 독립변수들의 평균에서 떨어진 정도를 나타내는 통계량
- 레버리지는 0과 1사이의 값을 가지며, 일반적으로 레버리지 평균의 2~4배를 초과하는 관측값을 이상값으로 정의함
표준화잔차
(Standardized Residual)
- 잔차는 추정된 회귀 모델에 의해 산출된 예측값과 실제값으로 측정된 관측값의 차이를 의미하며, 표준화잔차는 잔차를 표준화한 통계량
- 일반적으로 표준화잔차의 절대값이 2나 3을 초과하는 관측값을 이상값으로 정의함
스튜던트잔차
(Studentized Residual)
- 스튜던트잔차는 잔차를 잔차의 표준오차로 나눈 통계량으로, t분포를 기반으로 이상값을 탐색함
- 절대적인 수치로는 스튜던트잔차의 절대값이 3 또는 4를 초과하면 이상값으로 의심함
쿡의 거리
(Cook's Distance)
- 추정된 회귀모델에 대한 각 관측값들의 전반적인 영향력을 측정하기 위해 잔차와 레버리지를 동시에 고려한 턱도
- 양향값 진단에 가장 많이 사용
- i번째 관측치를 포함하여 계산한 적합값과 i번째 결측값을 포함하지 않고 계산한 적합값 사이의 거리
- 기준값인 1보다 클 경우 영향값으로 판단
마할라노비스거리
(Mahalanobis Distance)
- 변수의 표준편차와 더불어 변수 간 상관성(Correlation)까지 고려한 거리 척도
- 한 점에서 마할라노비스거리가 같은 점들의 집합을 구하면 표본평균을 중심으로 축이 회전된 타원체(Rotated Ellipse) 작성(변수 간의 상관성이 있을 때 거리 척도)
DIFFerence in FITS - 모든 관측치를 활용하여 추정된 회귀 모델 예측값과 해당 관측값을 제외한 후 추정된 회귀 모델의 예측값 변화 정도를 측정하는 방법
- i번째 관측치 제외 시 종속변수 예측값의 변화 정도 측정값
DIFFerence in BETASS - 모든 관측값을 활용하여 추정된 회귀 모델의 회귀계수와 해당 관측값을 제외한 후 추정된 회귀 모델의 회귀계수 변화 정도를 측정하는 방법
- 데이터 수가 적은 경우(n≤30), DFBETAS의 절대값이 1보다 크면 이상값으로 판단
- 데이터 수가 큰 경우(n>30), DFBETAS의 절대값이 2/루트n보다 클 경우 이상값으로 판단