빅데이터분석기사

연관분석 측정지표: 지지도(Support), 신뢰도(Confidence), 향상도(Lift)

Jia H 2025. 4. 2. 16:22

🚀 연관분석(Association Analysis)

- 종속변수가 미존재하는 비지도학습의 한 종류, 즈로 거래 구매항복에 존재하는 품목들 간의 연관성 규칙 추론에 사용

 

✅️ 연관분석 장점 및 단점

구분 주요 내용 설명
장점 결과 이해도 높음 조건 반응으로 표현되는 연관분석 결과 이해도가 높음
종속변수가 없어 유용 분석 방향이나 목적이 특별히 없는 경우 유용
계산 용이 계산이 간단함(지지도, 신뢰도, 향상도)
단점 연산량 많음 계산하는 연산 데이터양이 많음
분석 지표 명확화 필요 너무 상세한 세분화된 품목을 가지고 규칙을 찾으면 의미 없는 분석(적절한 품목 세분화 필요)
충분한 데이터 필요 거래량이 적은 품목은 거래수가 적어 규칙 발견 시 제외 필요

 

 

✅️ 연관분석을 위한 3가지 측정지표

측정기준 수식 설명
지지도(Support) P(X∩Y) - 전체 거래 중 X, Y가 동시에 포함된 거래의 비율
신뢰도(Confidence) P(X∩Y) / P(X) - 품목 X가 구매되었을 때, 품목 Y가 추가로 구매될 확률(조건부확률)
향상도(Lift) P(X∩Y) / {P(X) x P(Y)} - 품목 X를 구매할 때, 품목 Y도 구매하는지 서로 간의 연관성을 파악하는 비율
- 향상도 = 1: 독립에 가까운 관계
- 향상도 > 1: 양의 상관관계(데이터 간 연관성 높음)
- 향상도 < 1: 음의 상관관계(데이터 간 연관성 낮음)

 

 

✅️ 연관분석 사례

구분 설명
사례


- 기저귀와 맥주의 연관 분석
지지도 - 전체 거래 4건 중 기저귀(X)와 맥주(Y)를 동시에 구입한 거래: 2건
- P(X∩Y) = 2 / 4 = 0.5
신뢰도 - 기저귀(X)가 구매되었을 때, 맥주(Y)가 추가로 구매될 확률
- P(X∩Y) / P(X) = 2 / 3 = 0.67
향상도 - 기저귀(X)를 구매할 때, 맥주(Y)도 구매하는지 서로 간의 연관성을 파악하는 비율
- P(X∩Y) / {P(X) x P(Y)} = 0.5 / (0.75 * 0.5) = 1.33
- 향상도 1.33은 1보다 크므로 기저귀(X)와 맥주(Y)는 양의 상관관계를 가짐(연관성 높음)