🚀 연관분석(Association Analysis)
- 종속변수가 미존재하는 비지도학습의 한 종류, 즈로 거래 구매항복에 존재하는 품목들 간의 연관성 규칙 추론에 사용
✅️ 연관분석 장점 및 단점
구분 | 주요 내용 | 설명 |
장점 | 결과 이해도 높음 | 조건 반응으로 표현되는 연관분석 결과 이해도가 높음 |
종속변수가 없어 유용 | 분석 방향이나 목적이 특별히 없는 경우 유용 | |
계산 용이 | 계산이 간단함(지지도, 신뢰도, 향상도) | |
단점 | 연산량 많음 | 계산하는 연산 데이터양이 많음 |
분석 지표 명확화 필요 | 너무 상세한 세분화된 품목을 가지고 규칙을 찾으면 의미 없는 분석(적절한 품목 세분화 필요) | |
충분한 데이터 필요 | 거래량이 적은 품목은 거래수가 적어 규칙 발견 시 제외 필요 |
✅️ 연관분석을 위한 3가지 측정지표
측정기준 | 수식 | 설명 |
지지도(Support) | P(X∩Y) | - 전체 거래 중 X, Y가 동시에 포함된 거래의 비율 |
신뢰도(Confidence) | P(X∩Y) / P(X) | - 품목 X가 구매되었을 때, 품목 Y가 추가로 구매될 확률(조건부확률) |
향상도(Lift) | P(X∩Y) / {P(X) x P(Y)} | - 품목 X를 구매할 때, 품목 Y도 구매하는지 서로 간의 연관성을 파악하는 비율 - 향상도 = 1: 독립에 가까운 관계 - 향상도 > 1: 양의 상관관계(데이터 간 연관성 높음) - 향상도 < 1: 음의 상관관계(데이터 간 연관성 낮음) |
✅️ 연관분석 사례
구분 | 설명 | |
사례 | ![]() - 기저귀와 맥주의 연관 분석 |
|
지지도 | - 전체 거래 4건 중 기저귀(X)와 맥주(Y)를 동시에 구입한 거래: 2건 - P(X∩Y) = 2 / 4 = 0.5 |
|
신뢰도 | - 기저귀(X)가 구매되었을 때, 맥주(Y)가 추가로 구매될 확률 - P(X∩Y) / P(X) = 2 / 3 = 0.67 |
|
향상도 | - 기저귀(X)를 구매할 때, 맥주(Y)도 구매하는지 서로 간의 연관성을 파악하는 비율 - P(X∩Y) / {P(X) x P(Y)} = 0.5 / (0.75 * 0.5) = 1.33 - 향상도 1.33은 1보다 크므로 기저귀(X)와 맥주(Y)는 양의 상관관계를 가짐(연관성 높음) |
'빅데이터분석기사' 카테고리의 다른 글
회귀모델의 진단: 영향값과 이상값 진단방법 (0) | 2025.04.02 |
---|---|
기울기 소멸 문제(Vanishing Gradient Problem) 및 해결 방법 (0) | 2025.04.02 |
인공신경망 활성화 함수(Active Function) 종류 (0) | 2025.04.02 |
데이터 차원축소 종류: PCA(주성분 분석), FA(요인분석), t-SNE(t-분산 확률적 이웃 임베딩), MDS(다차원척도법) (0) | 2025.04.01 |
딥러닝(Deep Learning)의 종류 (0) | 2025.04.01 |