빅데이터분석기사

[빅데이터분석기사 필기] 데이터 탐색 기초

Jia H 2025. 2. 28. 11:52

데이터 탐색 과정

구분 묘사적 데이터 분석
(DDA: Descriptive
Data Analysis)
탐색적 데이터 분석
(EDA: Exploratory
Data Analysis)
확증적 데이터 분석
(CDA: Confirmatory
Data Analysis)
예측적 데이터 분석
(PDA: Predictive
Data Analysis)
목적 현재의 모습을 요약하여 기술 수집된 데이터의 표현 수집된 데이터를 탐색하여 이해하고, 가설 도출 도출된 가설 검정 관계식을 만들고 최적의 조건을 예측
분석도구 평균, 표준편차, 빈도수, 백분위수, 첨도, 왜도 등 그래프 분석(히스토그램, 파레토 파트, Box Plot 등)
정규성 확인, 트렌드 분석
추정(점추정, 구간추정)
가설검정(Z검정, t검정, 분산분석, 회귀분석 등)
모델링 기법(K-NN, Nueral Network, 선형회귀 등), 시뮬레이션 기법 등

 

 

탐색적 데이터 분석과 확증적 데이터 분석의 비교

구분 탐색적 데이터 분석(EDA) 확증적 데이터 분석(CDA)
목적 새로운 가설 생성 및 통찰을 얻어 방향성 설정 가설 검정의 유효성 검정
행동에 대한 평가로 채택 여부 결정
절차 유연한 절차
데이터 수집 → 시각화 탐색 → 패턴 도출 → 인사이트 발견
엄격한 절차
가설설정 → 데이터 수집 → 통계분석 → 가설검정
장점 분석 과정에서 유연하게 가설을 설정 가능 검증된 이론과 모형이 존재
단점 명확한 분석 목표가 없으면 분석의 오류를 범할 수 있음 선입견이 개입되어 예상치 못한 결과이 사전 탐지가 어려울 수 있음
사용 통계 기술통계: 평균, 퍼센트, 분포 등 요약 정보, 그래프에 의한 시각화 자료 추론 통계: 검정통계량 및 모수
기준치와의 차이(추정, 가설검정)
사례 지역별/시기별 배달음식 주문 데이터를 탐색하고 시각화하면 매출이 높을 것으로 예측되는 장소와 주문이 많은 시간에 대한 정보를 얻을 수 있음. CCTV의 범죄 예방 효과를 검증하기 위해 CCTV설치 수와 범죄 발생빈도의 통계적 상관관계를 파악하여 CCTV가 설치된 곳은 범죄 발생빈도수가 높다 혹은 낮다 등의 가설을 검증하는 방법으로 확증적 데이터 분석 설명할 수 있음 

 

 

탐색적 데이터 분석의 4가지 주제

구분 설명 예시
저항성 데이터의 일부가 파손되었을 때, 영향을 적게 받는 성질
자료가 파손된다는 것은 일부가 예상치 못한 값으로 대체되는 경우를 의미하며, 저항성이 존재하면 예상치 못한 값에 의한 변화에 민감하지 않게 됨
평균보다 중앙값이 이상값에 덜 민감함
잔차의 해석 예측값의 잔차를 계산하여 특정 데이터가 보통 데이터와 다른 경향을 가지고 있는지 확인
잔차(Residual): 관측값들이 주경향으로부터 얼마나 벗어나는지를 알 수 있는 척도
잔차를 산출했을 때, 다른 데이터(관측값)와는 달리 왜 큰 잔차가 발생했는지 확인이 필요함
데이터의 재표현 재표현: 데이터의 해석과 분석을 단순화하기 위해 원 변수를 재표현하는 방법
일반적으로 데이터를 재표현하여, 분포의 대칭성, 선형성, 분산 안정성 등 데이터 구조 파악
Swewed Right 데이터 분포 같은 경우 평균과 중앙값이 달라져 어떤 값을 대표값으로 사용해야 하는지 혼란 야기
데이터의 현시성 현시성: 데이터를 그래프로 시각화함으로써 데이터 안에 숨겨진 정보를 효율적으로 파악하는 과정
시각화는 낮은 수준의 분석이지만 EDA에서 필수이며, 수치 기반의 복잡한 분석보다 직관적으로 통찰력을 얻을 수 있음
히스토그램을 통해 구간의 빈도수가 많은 곳을 시각적으로 알 수 있음

 


상관관계 분석의 이해

- 상관관계를 파악하여 분석을 위한 독립변수와 설명변수 등을 파악

- 이상값 제거, 패턴 발견

 

상관관계 분석의 정의

- 선형적 과계 분석, 선형성 강도에 대한 통계적 분석

 

상관관계 분석의 가정사항

가정사항 설명
이변량 비교 가능한 두 개의 연속형 변수 존재
정규분포 변수 중 적어도 하나의 변수가 정규분포를 만족하는지 여부 (정규성을 만족)
선형성 검증 연속형 두 변수 간에는 선형적인 관계 존재
상관관계 분석 전에 두 변수 간의 산점도를 그려 선형성이 있는지 확인해야 함

 

 

상관관계 해석

구분 설명
선형성 두 개의 변수 간의 직선관계(비례식)
선형관계의 방향
(단조성)
양(+)의 상관관계: 한 변수의 값이 증가함에 따라 다른 변수값도 증가
음(-)의 상관관계: 한 변수의 값이 증가함에 따라 다른 변수값은 감소
0: 선형 상관관계 없음
관계의 크기(강도) - 1 ~ +1 사이의 값
-1, +1: 완전한 선형관계

피어슨 상관계수의 크기

 

 

공분산의 정의

- 공분산(Covariance)은 두 변수 X, Y가 서로 어떤 패턴(Pattern)을 보여주는가를 나타내는 지표

- 두 변수는 질적변수가 아닌, 크기가 측정되는 양적 변수

 

공분산의 해석

- 공분산 값이 0보다 크면 양(+)의 관계, 0보다 작으면 음(-)의 관계, 0인 경우는 서로 상관이 없음(독립의 의미X)

 

공분산 분석 사례

구분 설명
사례 A중학교에 다니는 학생 5명의 영어, 국어 점수의 연관성 확인 사례
<영어점수, 국어점수>
설명
설명 주어진 표본의 영어점수, 국어점수의 평균은 5이다.
각 학생의 점수에서 평균을 뺸 편차를 구한다. 영어와 국어 편차의 곱의 합은 17. 여기에 5명의 표본으로 연관성을 분석하고 있기 떄문에 표본공분산을 적용하여 4(n-1, 자유도)로 나누어 주었다.
공분산은 4.25가 도출된다.
분석 국어평균과 영어평균의 산점도를 확인하면 각 평균 5로부터 5명의 학생의 점수 분포를 확인할 수 있고 공분산은 0보다 큰 4.25가 산출되었기 떄문에 영어점수가 증가할 때 국어점수도 증가하는 것으로 확인된다.

 

 

상관계수 종류

- 상관계수(Coreelation Coefficient): 공분산을 각 변수의 표준편차로 나눈 것(표준화)

- 피어슨 상관계수: 특정 분포를 따르면서(모수적) 등간척도 및 비율척도와 같은 연속형의 데이터에 적용

- 스피어만 상관계수, 켄달 상관계수: 특정 분포를 가정하지 않으면서(비모수적) 서열척도 변수인 경우 주로 이용

 

+모수적방법, 비모수적방법

- 모수 방법(Parametric method): 모수를 특정 분포로 가정하여 접근하는 방법

- 비모수적 방법(Non-Parametric method): 모집단의 특정 분포를 가정하지 않고 접근하는 방법

 

 

상관계수의 선택 기준 비교

구분 피어슨 스피어만 켄달
변수 유형 등간/비율변수 - 등간/비율변수 서열변수 - 서열변수 서열변수 - 서열변수
목적 등간변수, 비율변수들의 상관관계 측정 서열변수들의 상관관계 측정 서열변수들의 상관관계 측정
정규성 정규성 가정(모수적 방법) 정규성 가정(비모수적 방법) 정규성 가정 안함(비모수적 방법)
관계 선형관계 비선형관계, 단조성(X증가 → Y증가) 비성형관계, 단조성(X증가 → Y증가)
상관계수 γ, 감마(적률 상관계수) ρ, 로우(순위 상관계수) τ, 타우(켄달)
범위 -1 ≤ γ ≤ 1 -1 ≤ ρ ≤ 1 -1 ≤ τ ≤ 1

 

 

+편상관계수(Partial Correlation Coefficient)

- 부분상관계수로도 부르며, 제3변수의 영향을 고려하지 않는 상관계수와 달리 제 3변수 고려

- 3변수가 주은 요인 p-1개를 제어하고 두 변수의 순수한 상관관계를 나타낸다.

- 예) 학습시간과 시험점수 간의 상관관계에서 나이의 영향 제외

 

 

피어슨 상관계수(PCC: Pearson Correlation Coefficient)

피어슨 상관계수의 정의

 

피어슨 상관계수 방향성 및 크기(강도)

범위 설명
선형관계의 방향 양(+)의 상관관계: 한 변수의 값이 증가함에 따라 다른 변수값도 증가
음(-)의 상관관계: 한 변수의 값이 증가함에 따라 다른 변수값은 감소
0: 선형 상관관계 없음
관계의 크기(강도) -1, +1: 완전한 선형관계(강한 상관관계)
±0.3 미만이면 약한 선형 상관관계
±0.7 이상이면 강한 성형 상관관계

 

 

스피어만 상관계수(SROCC: Spearman Rank-Order Correlation Coefficient)

스피어만 상관계수의 정의

di = xi의 순위 - yi의 순위, n: 상수

- 피어슨 상관계수: 수학점수와 영어점수의 상관계수

- 스피어만 상관계수: 수학과목의 석차와 영어과목의 석차

- 스피어만 상관계수(로우)는 데이터 내 편차와 에러에 민감하며, 일반적으로 켄달 상관계쑤보다 높은 값

 

+ 선형관계와 단조관계

선형관계, 단조관계(비선형), 선형도 단조도 아닌 관계

단조성이 좋다: 한 변수의 값의 크기가 커지면(또는 작아지면) 다른 변수의 크기도 커진다(또는 작아진다)는 의미

 

켄달 상관계수

켄달상관계수의 정의

C(Concordant Pair): 부합하는 쌍의 수

D(Discordant Pair): 부합하지 않는 쌍의 수

- X의 순위와 일치시키기 위해 Y를 얼마나 바꾸어야 하는 정도로 상관관계 평가

- xi가 커질 떄 yi도 커지면 부합, xi가 커질 떄 yi가 작아지면 비부합

- 켄달 상관계수(타우)는 샘플 사이즈가 작거나 데이터의 동률이 많을 때 유용하다.

 

상관계수의 유의성 검정

- '통계 기법 이해'를 학습한 뒤 다시 학습하는 것을 추천! -> 대학에서 확통 강의 들었다면 평범한 내용

- 통계적으로 유의하다 = 관찰된 현상이 우연에 의해 벌어졌을 가능성이 낮다

- 상관계수 유의성 검정: 모수관계수인 p를 사용하여 가설 설정하고 검정

- 통계적 유의성 검정: 귀무가설(상관계수가 0), 대립가설(상관계수가 0이 아니다) 양측검정

- p값(P-Value)이 0.05보다 작다면, 통계적으로 유의미한 상관계수

 

 

피어슨 상관관계 분석 사례

구분 설명
사례 A중학교에서 학생들의 지각횟수와 국어성적의 상관관계를 확인하기 위해 5명의 학생을 무작위로 표본으로 선정하여 분석하였다.
피어슨 상관계수 정의
풀이 지각횟수 평균: 3
국어성적 평균: 6

= -0.9
분석 피어슨 상관계수는 -1에 가까우므로 지각횟수와 국어성적은 음의 상관관계가 높음

 

 

상관계수 유의성 검정 절차

절차 설명
귀무가설 및 대립가설 설정 귀무가설(H0): p = 0 (상관관계가 0이다, 상관관계가 없다)
대립가설(H1): p ≠ 0 (상관관계가 1이다, 상관관계가 있다)
유의수준(α) 결정 0.05, 0.1 등을 사용
기각역 설정 양측검정: 대립가설 H1: p ≠ 0일 때, 
검정통계량 계산
통계적 결론 검정통계량이 기각역에 속하면 귀무가설 기각, 아닌 경우 귀무가설을 기각하지 않음

 

 

상관계수의 유의성 검정 사례

구분 사례
사례 A중학교에서 학생들의 지각횟수와 국어성적의 상관관계를 확인하기 위해 5명의 학생을 무작위로 표본으로 선정하여 분석하였다.
상관계수는 -0.9일 때 유의수준 10%에서 상관관계가 있다고 할 수 있는지 검정해보자.
귀무가설 및 대립가설 설정 귀무가설(H0): p = 0 지각횟수와 국어성적은 상관관계가 없다.
대립가설(H1): p ≠ 0 지각횟수와 국어성적은 상관관계가 있다.
유의수준 α = 0.1
기각역 및 기각값 - 유의수준 0.1에대하여, 양측검정이므로 𝛼/2 = 0.05이고 자유도는 3(5-2)인 값을 T분포표에서 확인하면 ±2.354이다.
검정통계량 및 P값
분포도
통계적 결론 - 기각역 검정통계량 t = -3.58은 기각역에 속하여 귀무가설은 기각된다. 따라서 지각횟수와 국어성적은 상관관계가 있다.
통계적 결론 - p값 사용 p(0.037) < 유의수준( α = 0.1), P값이 유의수준보다 작으므로 귀무가설은 기각된다. 따라서 지각횟수와 국어성적은 상관관계가 있다.

 

기초통계량의 이해

- 중심경향치(분포의 중심): 평균(Mean), 중앙값(Median), 최빈값(Mode)

- 산포도(분포의 흩어짐): 표준편차(Stddev), 분산(Variance), 범위(Range), 사분위수(Quartile), 변동계수(CV)

- 비대칭도(분포의 모양): 왜도(Skewness), 첨도(Kurtosis)

 

중심경향치(Central Tendency)

- 자료 전체를 대표할 수 있는 값을 의미

- 평균, 최빈값, 중앙값 등

 

평균(Mean)

산술평균(Arithmetic Average)

- 산술평균 = 관측된 숫자들의 총합 / 관측된 숫자들의 총 개수

 

모평균과 표본평균

모집단의 평균(모평균) 표본집단의 평균(표본평균)
N: 모집단의 자료에서 관측값의 총 개수
n: 표본집단의 자료에서 관측값의 총 개수
μ: 모집단평균
x̅: 표본 평균(X바)
xi: 자료의 i번째 관측값
자료 1,4,6,5,6,2의 평균은 (1+4+6+5+6+2)/6=4인데, 극단치 100이 존재한다고 가정했을 때 평균은 (1+4+6+5+6+2+100)/7=19.2이 된다. 일반적인 값을 넘어서는 극단치가 데이터의 일반화를 훼손시킬 수 있다.

 

 

절사평균(Trimmed Mean)

- 극단치가 존재할 경우 극단값을 제거하는 효과

 

가중평균(Weighted Mean)

- 각 데이터 값에 가중치를 곱한 값들의 총합을 다시 가중치의 총합으로 나눈 값

 

가중평균 예시

- A학생과 B학생의 영어점수와 수학점수는 각각 다음과 같다.

이름 영어 점수 수학 점수 산술평균
A학생 50 70 60
B학생 60 60 60

 

- 산술평균은 A학생 = B학생

- 영어의 가중치를 50%, 수학의 가중치를 70%라 했을 때 가중평균은 다음과 같다. (정시 입시같은 것..)

이름 영어 점수 영어 가중치 수학 점수 수학 가중치 가중평균
A학생 50 50% 70 70% (50 * 0.5 + 70 * 0.7) / (0.5 + 0.7) = 61.67
B학생 60 50% 60 70% (60 * 0.5 + 60 * 0.7) / (0.5 + 0.7) = 60

 

 

기하평균(Geometric Mean)

- n개의 양수 값을 모두 곱한 값에 n제곱근을 적용한 값

- 변수가 성장률(물가 상승률, 연평균 성장률 등) 또는 변화율(인구변동률 등)일 때 유용한 중심위치 척도

- 예시

- A마우스의 출시 가격이 10,000원이었는데, 2월에 20% 가격이 증가하고, 3월에 30%의 가격이 증가하였으며, 4월에는 10% 감소하였다. 3개월 평균 증가율은 다음과 같다.

출시 가격 2월 가격 3월 가격 4월 가격
10,000 12,000 15,600 14,040

 

출시 가격 2월 변화율 3월 변화율 4월 변화율
1 1.2 1.3 0.9

- (1.2 * 1.3 * 0.9)^(1/3) = 1.12

- 기하평균 약 1.12로 3개월동안 평균 약 12% 가격이 증가했다.

산술평균은 (20 + 30 - 10) = 13.13% 가격이 증가한 것으로 산출

 

조화평균(Harmonic Mean)

- 역수의 산술평균의 역수를 구한 값

- 역수의 차원에서 평균을 구하고, 다시 역수를 취해 원래 차원의 값으로 돌아오는 것

- 평균적인 변화율을 구할 떄 주로 사용하며, 속도 등과 같이 여러 단위가 결합되어 있을 때 활용 가능

- 조화평균 예시

 

중앙값(Median = 중위수 = 중앙치)

- 중심에 위치한 값

- n=홀수: (n+1)/2의 값 

n=짝수: (n/2의 값 + (n/2+1)의 값)/2

 

 

중앙값 예시

구분 전체 자료의 개수(n)가 홀수인 경우 전체 자료의 개수가 짝수인 경우
정렬값 1, 2, 4, 8, 15 1, 2, 4, 5, 7, 10
중앙값 위치 (5+1) / 2 = 3 (6/2 + 1) = 4
중앙값 3번째 값 = 4 (3번째 값 + 4번째 값) / 2 = (4 + 5) / 2 = 4.5

 

 

최빈값(Mode)

- 빈도수가 가장 많은 값, 극단치에 영향 X, 같은 값이 많이 반복될 때 유용

- 모든 자료의 수가 1번씩 나올 경우 최빈값 존재X, 여러개의 최빈값이 있을 수 있다.

 

평균, 중앙값, 최빈값의 비교

- 극단치가 존재하는 경우 평균보다 중앙값이 더 합리적이지만

- 평균에 대한 수학적 전개가 용이하고 평균의 분포 함수를 쉽게 구할 수 있기 때문에

 

산포도

- 데이터가 흩어져 있는 정도, 중심위치가 얼마나 안정적인지에 대한 정보

- 범위, 사분위수 범위, 분산, 표준편차, 변동계수 등

 

범위(Range)

- Range = Max - Min

 

사분위수 범위(IQR: Interquartile Range)

- IQR = Q3 - Q1

 

편차(Deviation), 분산(Variance)과 표준편차(Standard Deviation)

 

편차, 분산, 표준편차 차이

편차 분산 표준편차
각 관측치와 평균의 차이 편차의 제곱합의 평균 분산의 제곱근

 

 

+ 표본을 n-1로 나누는 이유

- 자유도(Degree of Freedom)에 관한 문제

- 자유도: 자료로부터 통계량을 계산하는 경우 이 통계량에 대해 독립적인 정보를 갖는 자료 측청치의 개수

 

 

표준편차 분석 예시

구분 설명
사례 A학교의 3학년 1반의 수학점수{20, 30, 40, 60, 100}와 3학년 2반의 수학점수{40, 45, 50, 55, 160}는 동일하게 평균이 50점인데, 어느 반의 학습성과가 높다고 할 수 있을까?
표준편차 3학년 1반 표준편차: 31.9
3학년 2반 표준편차: 7.9
산포도 3학년 2반이 평균을 중심으로 성적이 가깝게 형성되어 산포도가 낮음을 의미한다.
따라서 3학년 2반이 수학성적이 골고루 분산되어 있어, 학업성취도가 높다고 분석할 수 있다.

 

 

표준편차(Standard Deviation)와 표준오차(Strandard Error)

- 표준오차는 표본을 여러 번 추출했을 떄, 여러번 추출한 표본들의 평균의 표준편차

- 각 표본의 평균이 얼마나 변동하는지 측정하는 것

 

변동계수(Coefficient of Variation)

- 표준편차 / 평균 * 100

 

변동계수 분석 예시

구분 설명
사례 A고등학교 1학년인 홍길동, 성춘향 학생의 공부습관을 한 달간 조사하여 홍길동 학생은 평균 8시간, 표준편차는 0.5의 학습성향을 파악했고, 성춘향 학생은 평균 6시간, 표준편차 0.8인 학습결과를 얻었다. 어느 학생이 더 꾸준히 공부하는 습관을 가졌을까?

'변동계수
홍길동의 학습 변동계수 = 0.5/8 * 100 = 6.3
성춘향의 학습 변동계수 = 0.8/6 * 100 = 13.3
분석 결과 변동계수 계산 결과, 홍길동(6.3)이 성춘향(13.3)보다 차이가 작다는 걸 알 수 있다. 따라서 홍길동 학생이 더 꾸준히 공부하는 습관을 가지고 있다고 결론을 얻을 수 있다.

 

 

비대칭도

 

왜도(Skewness)

 

왜도의 분포도

왜도 < 0 왜도 = 0 왜도 > 0
Left Skewed
(Negative Skewness)
왼쪽으로 긴 꼬리를 갖는 분포
좌우대칭 분포 Right Skewed
(Positive Skewedness)
오른쪽으로 긴 꼬리를 갖는 분포
평균< 중앙값 < 최빈값 평균 = 중앙값 = 최빈값 최빈값 < 중앙값 < 평균

 

 

첨도(Kurtosis)

 

첨도의 분포도

첨도 < 0 첨도 = 0 첨도 > 0

퍼짐분포(Platykurtic) 정규분포(Mesokurtic) 폭이 좁은 분포(Leptokurtic)
정규분포보다 짧은 꼬리를 갖음
완만한 모양
좌우대칭 분포
표준정규분포와 뾰족한 정도가 유사
정규분포보다 긴 꼬리를 갖음
뾰족한 모양

 

 

 

시각적 데이터 탐색의 이해

정보 시각화 방법

시간시각화 분포시각화 관계시각화 비교시각화 공간시각화
막대그래프
누적 막대그래프
점그래프
선그래프
영역차트
계단식그래프
파이차트
도넛형차트
트리맵
누적연속그래프
줄기잎그림
상자그림
히스토그램
산점도
산점도행렬
버블차트
히스토그램
플로팅바차트
히트맵, 모자이크 그림
체르노프페이스
스타차트
평행좌표그래프
다차원척도법
등치지역도
등치선도
도트맵
버블플로트맵
카토그램

 

 

시간시각화 탐색

막대그래프

- 바차트(Bar Chart): 막대가 가로로

- 컬럼차트(Column Chart): 막대가 세로로

 

누적막대그래프

- 변수 여러개를 동시에 다루는 경우 세부항목 각각의 값과 전체의 합을 함께 표현하기 용이

 

점그래프

- 연속적 자료에서, 관찰 대상의 추이를 비교하거나 경향성/추세(Trend) 관찰, 예측 가능성

 

분포시각화 탐색

- 시간 기준이 아니며 데이터가 차지하는 영역을 기준으로, 범주형 데이터나 연속형 데이터를 구간화하여 데이터의 분포 등을 이해하는데 효과적

 

파이차트(Pie Chart)

- 비율 한눈에 볼 수 있음, 백분율에 대한 상대적 차이 비교

 

도넛차트

 

 

줄기잎그림(Stem & Leaf Plot)

- 관측값의 정보를 손실 및 변환 없이 그대로 분포를 파악할 수 있는 장점

- 모든 자료를 표현하기 때문에 자료가 많으면 파악 어려움

 

트리맵

 

 

히스토그램(Histogram)

 - 보통 가로축이 계급(구간), 세로축이 도수(빈도 수)

 

 

상자그림(Box Plot)

 

 

관계시각화 탐색

산점도(Scatter Plot)

- 군집화, 이상치 패턴 파악하는데 유용

- 상관관계 분석에서 두 변수 간의 선형/비선형 형태를 파악해 방향성과 강도 조사 가능

 

버블차트(Buuble Chart)

- 산점도를 확장하여 3가지 요소에 대해 상관관계를 표현할 수 있는 시각화 방법

- 버블의 크기로 비율 나타내기, 버블의 모양을 데이터의 패턴에 따라 시각화

 

 

비교시각화 탐색

- 다변량 변수를 포함하는 자료를 3차원 공간에 효과적으로 표현하는 시각화 방법

 

플로팅바차트(Floating Bar Chart)

- 가장 높은 수치부터 가장 낮은 수치 범주 간 중복, 이상치 파악이 가능

 

평행좌표그래프(Parallel Coordinates Plot) = 병렬차트

- 한 번에 많은 데이터를 비교하기에 유용

- 한 레코드(Raw Data)별로 주어진 값을 해당 변수 축에 대응시켜 선으로 연결, 레코드 수만큼의 라인

 

+ 붓꽃(Iris) 데이터셋

- Iriss Dataset은 통계학자 피셔(R.A Fisher)의 붓꽃 분류 연구에 기반한 데이터

- 꽃받침 길이(Sepal Length), 꽃받침폭(Sepal Width), 꽃잎 길이(Petal Length), 꽃잎 폭(Petal Width), 붓꽃 종(Species)

- 5가지 변수, 150라인

 

공간시각화 탐색

- 실제 위치정보를 표현한 시각화 방법