🚀 모델 진단(Model Diagnostic)
- 선형성, 독립성, 정규성, 등분산성 진단
- 다중회귀분석에서는 다중공선성도 확인
✅️ 모델 진단
구분 | 설명 | |
독립변수와 종속변수 간의 선형성 | - 예측하고자 하는 독립변수 X와 종속변수 Y간에 선형성을 만족하는 특성을 의미 - 선형회귀분석에서 중요한 기본 가정(비선형회귀분석에서는 해당하지 않음) |
|
오차의 독립성 | - 예측의 오차값들은 서로 독립적이라는 가정, 예측값의 변화에 따라 오차항이 특정한 패턴을 가져서는 안 됨 - 일반적으로 더빈-왓슨(Durbin-Watson) 통계량을 이용하여 독립성을 검정 |
|
오차의 정규성 | 오차의 분포가 정규분포를 만족하는지 여부 | |
샤피로-윌크 검정 (Shapiro-Wilk Test) |
- 오차항이 정규분포를 추종하는지 알아보는 검정으로, 회귀분석에서 모든 독립변수에 대해서 종속변수가 정규분포를 추종하는지 확인하는 방법 | |
콜모고로프-스미르노프 검정 (Kolmogorov-Smirnov Test) |
- 경험적 누적분포함수(EDF: Emmpirical Distribution Function)에 기반한 적합도 검정 방법 - 자료의 평균/표준편차와 히스토그램을 표준정규분포와 비교하여 적합도 검정 |
|
오차의 정규성 | Q-Q 플롯(Q-Q Plot) (Quantiles-Quantiles Plot) |
- 그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법 - 대각선 참조선을 따라서 관측값들이 분포하면 정규성 만족한다고 판단 |
등분산성 | - 오차의 분산은 독립변수값과 무관하게 일정해야 한다는 가정 - 산점도를 그려서 잔차와 독립변수 간 아무런 관련성이 없게 점들이 무작위적으로 고르게 분포되어야 등분산성을 만족 - 레빈(Levene)과 바틀렛(Bartlett) 검정 등 이용 |
|
다중공선성 | - 독립변수들 간에 강한 상관관계가 나타나는 문제 - 각 독립변수의 회귀계수가 종속변수에 미치는 영향력을 올바르게 설명하지 못하게 됨 - 해결방안: 독립변수 간 상관계수 확인, 결정계수(R^2) 확인, 분산팽창요인(VIF) 확인 |
🚀 데이터 진단(Data Diagnostics, 자료 진단)
- 데이터 진단이 필요한 데이터를 영향값(Influential Data)와 이상값(Outlier)으로 구분
- 영향값과 이상값은 모두 다른 관측값에 비해 잔차가 큰 관측값이라는 점에서 공통점이 있으나
- 이상값: 비교할 대상(독립변수 관계 속에서)이 있어 그 값들에 비해 값이 매우 크거나 작아 회귀계수 추정값을 변화시킴
- 영향값: 이상값과 동일하게 회귀계수 추정값을 변화시키지만 비교 대상이 되는 관측값이 없으므로 이상값인지 판단할 수 없는 경우
✅️ 영향값과 이상값 진단방법
방법 | 설명 |
레버리지 (Leverage) |
- 독립변수의 각 관측값이 독립변수들의 평균에서 떨어진 정도를 나타내는 통계량 - 레버리지는 0과 1사이의 값을 가지며, 일반적으로 레버리지 평균의 2~4배를 초과하는 관측값을 이상값으로 정의함 |
표준화잔차 (Standardized Residual) |
- 잔차는 추정된 회귀 모델에 의해 산출된 예측값과 실제값으로 측정된 관측값의 차이를 의미하며, 표준화잔차는 잔차를 표준화한 통계량 - 일반적으로 표준화잔차의 절대값이 2나 3을 초과하는 관측값을 이상값으로 정의함 |
스튜던트잔차 (Studentized Residual) |
- 스튜던트잔차는 잔차를 잔차의 표준오차로 나눈 통계량으로, t분포를 기반으로 이상값을 탐색함 - 절대적인 수치로는 스튜던트잔차의 절대값이 3 또는 4를 초과하면 이상값으로 의심함 |
쿡의 거리 (Cook's Distance) |
- 추정된 회귀모델에 대한 각 관측값들의 전반적인 영향력을 측정하기 위해 잔차와 레버리지를 동시에 고려한 턱도 - 양향값 진단에 가장 많이 사용 - i번째 관측치를 포함하여 계산한 적합값과 i번째 결측값을 포함하지 않고 계산한 적합값 사이의 거리 - 기준값인 1보다 클 경우 영향값으로 판단 |
마할라노비스거리 (Mahalanobis Distance) |
- 변수의 표준편차와 더불어 변수 간 상관성(Correlation)까지 고려한 거리 척도 - 한 점에서 마할라노비스거리가 같은 점들의 집합을 구하면 표본평균을 중심으로 축이 회전된 타원체(Rotated Ellipse) 작성(변수 간의 상관성이 있을 때 거리 척도) |
DIFFerence in FITS | - 모든 관측치를 활용하여 추정된 회귀 모델 예측값과 해당 관측값을 제외한 후 추정된 회귀 모델의 예측값 변화 정도를 측정하는 방법 - i번째 관측치 제외 시 종속변수 예측값의 변화 정도 측정값 |
DIFFerence in BETASS | - 모든 관측값을 활용하여 추정된 회귀 모델의 회귀계수와 해당 관측값을 제외한 후 추정된 회귀 모델의 회귀계수 변화 정도를 측정하는 방법 - 데이터 수가 적은 경우(n≤30), DFBETAS의 절대값이 1보다 크면 이상값으로 판단 - 데이터 수가 큰 경우(n>30), DFBETAS의 절대값이 2/루트n보다 클 경우 이상값으로 판단 |
'빅데이터분석기사' 카테고리의 다른 글
연관분석 측정지표: 지지도(Support), 신뢰도(Confidence), 향상도(Lift) (0) | 2025.04.02 |
---|---|
기울기 소멸 문제(Vanishing Gradient Problem) 및 해결 방법 (0) | 2025.04.02 |
인공신경망 활성화 함수(Active Function) 종류 (0) | 2025.04.02 |
데이터 차원축소 종류: PCA(주성분 분석), FA(요인분석), t-SNE(t-분산 확률적 이웃 임베딩), MDS(다차원척도법) (0) | 2025.04.01 |
딥러닝(Deep Learning)의 종류 (0) | 2025.04.01 |