🚀 군집분석(Clustering Analysis)
- 여러 개체(데이터) 중에서 유사한 속성을 지닌 대상을 몇 개의 집단으로 그룹화한 다음, 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대해 이해하고자 하는 탐색적 분석 방법
- 장점: 탐색적인 기법, 다양한 형태 데이터에 적용 가능, 분석 방법에 적용 용이
- 단점: 분석자에 의해 결과가 달라질 수 있음, 가중치 및 거리의 정의가 어려움, 초기 군집 수 K 결정이 어려움(비계층적 군집화)
✅️ 군집분석 다차원 변수의 유사도 및 유사도계수 기반 분류
구분 | 주요 내용 | 설명 |
비유사도 (거리 기반) |
유클리드거리 (Euclid Distance) |
- 다차원 분산형 차트에서 변수값 쌍의 관계 표현, 두 점의 직선거리, 기하학적 최단거리 |
마할라노비스 거리 (Mahalanobis) |
- 유클리드 거리에서 점수를 늘려 거리를 구하는 기법(다차원 공간의 이상점 발견) - 확률분포를 고려하기 때문에 공분산 행렬을 사용(정규분포에서의 거리) |
|
민코우스키거리 (Minkowski) |
- 두 가지 거리(유클리드와 맨하탄)를 일반화한 기법 - r = 1은 맨하탄거리와 동일, r = 2는 유클리드거리와 동일 |
|
맨해튼거리 (Manhattan) |
- 격자형으로 된 두 점 사이의 이동거리 측정법으로 가로 이동 거리와 세로 이동 거리를 합친 전체 이동 거리를 구하는 기법 | |
다차원 변수의 유사도 |
레벤슈타인거리 (Levnshtein) |
- 값이 아닌 문자열 사이의 유사도를 나타낼 때 사용(몇 개의 문자가 차이가 나는지), 맞춤법 오류 확인 등 |
해밍거리 (Hamming) |
- 한 문자열을 다른 문자열로 바꾸기 위해 몇 글자를 바꾸어야 하는지 정의 - 고정 길이의 이진 데이터에서 서로 다른 비트 부호 수를 갖는 문자 개수 |
|
유사도 | 단순매칭계수 (SimpleMatchingCoefficient) |
- 집합 2개의 유사도를 구할 때 공통요소를 전체요소 수로 나눈 것 |
자카드계수 (JaccardCoefficient) |
- 두 문헌 간이나 문헌과 질문 간의 유사도를 측정하기 위해 사용되는 유사도 계수 | |
코사인유사도 (CosineSimilarity) |
- 두 벡터의 유사도를 구하는 방법 - 문서 사이의 유사도 계산(단어의 출현 빈도를 코사인에 적용) |
|
피어슨 상관계수 (Pearson's Correlation Coefficient) |
- 변수의 척도가 등간 이상일 경우에 변수 간의 상관관계와 선형성을 알아보기 위해 사용는 기법 |
🚀 비유사도 척도(=거리 기반 척도, Distance)
1️⃣ 유클리드거리(Euclidean Distance)2️⃣3️⃣4️⃣5️⃣

- 두 점을 잇는 가장 짧은 직선거리
2️⃣ 맨해튼거리(Manhattan Distance)

- 초록색 유클리드거리(최단거리)와 다르게 가로와 세로 길이의 합
3️⃣ 민코우스키거리(Minkowski Distance)


- p값을 조절하여 유클리드 거리, 맨해튼 거리, 체비쇼프 거리 등으로 변형 가능
- 유연성: 분석 목적에 따라 최적의 거리 측정을 선택할 수 있음
- 고차원 데이터에 적용 가능: n차원 공간에서 사용 가능
4️⃣ 표준화거리(Standardized Distance)

- 각 변수를 해당변수의 표준편차로 변환한 후에 유클리드 거리를 계산한 거리
- 표준화를 수행하여 척도(Scale)의 차이, 분산의 차이로 인한 왜곡을 피할 수 있음(예: 키[cm]와 몸무게[kg]를 비교할 때)
- 다른 말로 통계적거리(Statistical Distance)
- 기본적인 거리 측정, 클러스터링
5️⃣ 마할라노비스 거리 (Mahalanobis Distance)


- 변수의 표준푠차와 더불어 상관관계(Correlation)까지 고려한 거리 척도
- 데이터의 단위가 달라도 비교 가능, 분포 형태에 따라 거리 척도가 달라짐(공분산이 크면 해당 방향으로 거리 영향력이 낮아짐)
- 이상치 탐지, 분류, 다변량 분석)
🚀 유사도 척도(Similarity)
1️⃣ 코사인유사도(Cosine Similarity)


- 두 개의 벡터가 이루는 각도의 코사인 값을 이용하여 유사도를 측정하는 방법
- 방향(Angle)을 기준으로 유사성을 비교하기 때문에, 데이터 크기에 영향을 받지 않음
- 결과 범위: [-1, 1], 1에 가까울수록 유사, 0이면 직각(완전히 무관), -1이면 반대 방향(거의 사용되지 않음)
- 문서 유사도 분석, 추천 시스템, 정보 검색
2️⃣ 자카드유사도(Jaccard Similarity, 자카드 계수)
- 두 집합(Set) 사이의 유사도 측정

- 결과 범위: [0, 1], 1에 가까울수록 완전히 유사, 0이면 완전히 다름
- 데이터가 집합(Set) 형태일 때 유용
- 문서 비교, 검색 엔진, 이미지 유사도 분석, 클러스터링 등