빅데이터분석기사

[빅데이터분석기사 필기] 기술통계(1)

Jia H 2025. 3. 2. 15:24

통계학의 정의

- 통계학(Statistics)은 관심 대상인 모집단(전체 대상)의 특성을 파악하기 위해, 모집단으로부터 관련된 표본(일부 자료)을 수집한 후, 수집된 표본 자료를 요약한 특성을 이용하여, 모집단의 특성에 대해 확률을 이용해 추론하는 학문

+ 통계학의 유래: 라틴어의 Statisticus(확률) 또는 Statisticum(상태), 이탈리아어의 Statista(나라, 정치) 등에서 유래

- 통계(Statistics): 집단 현상에 대한 구체적인 양적 기술을 반영하는 숫자

- 통계학(Statistics): 집단 형상을 수량적으로 관찰하고, 분석하는 방법을 연구하는 학문

예를 들면 국회의원 선거 개표 전, 사전투표로 전체 득표수를 추정하는 것

 

모집단과 표본

- 모집단: 관심이 있는 대상과 관련된 모든 관측 가능한 값의 집합

- 표본: 집단 속에서 일부를 뽑아내어 조사한 결과로써 모집단의 성질을 추측할 수 있는 통계 자료(모집단의 부분집합)

 

모집단과 표본

구분 설명 사례/기법
모집단
(Population)
관측 대상이 되는 전체 집단(어머니 집단)
조사의 대상이 되는 자료 전체
어떤 확률분포로부터 관측될 수 있는 모든 관측값들
대한민국
유권자 전체
표본
(Sample)
모집단에서 추출된 자료의 집합
모집단의 부분집합으로서, 실험자가 미지의 확률분포를 조사하기 위해 사용하는 일부 측정값들
전체 유권자 중 1,000명
모수
(Population
Parameters)
모집단 관측값의 대표값(계산된 모든 값)
모집단을 요약/설명해주는 기술 통계 도구
전수조사를 하지 않는 한 알 수 없는 미지의 수
모평균, 모표준푠차, 모비율 등
표본 통계량
(Sample Statistic)
표본 관측값의 요약값(계산된 모든 값)
표본을 요약/설명해주는 기술 통계 도구 = 추정량(Estimator)
표본평균, 표본표준편차, 표본비율 등
추정치(Estimate) 구체적인 표본에 근거하여 구한 추정량의 값 A후보자 투표 300명
표본추출
(Sampling)
모집단에서 특정 수만큼 표본을 추출하는 과정 확률표본추출, 비확률표본추출
표준오차
(Standard Error)
반복적으로 추출한 표본들 간의 표준편차(표본 간의 변동성)
표본 통계량의 표준편차
추론/추정
(Inference)
표본에서 모집단을 추론하는 과정 추정, 가설 검정
표본오차
(Sampling Error)
모집단의 모수와 표본의 통계량의 차이
표본으로 삼은 집단을 통해 추출해낸 평균값과 실제 모집단의 평균과의 차이

 

 

기술 통계와 추론 통계

- 추론 통계를 하기 위해서는 기술 통계가 선행되어야 함

- 기술 통계: 통계량(Statistics)을 구한 다음에, 추론 통계: 모집단의 특성, 모수(Parameter)를 추론하기 떄문에

 

기술 통계와 추론 통계의 비교

 

구분 기술 통계(Descriptive Statistics) 추론 통계(Inferential Statistics)
정의 조사 및 측정된 자료를 통해 그 자료가 가지고 있는 특징을 수치, 표, 그래프로 정리하는 과정이고 모수와 표본 통계량을 계산해내는 통계학의 한 분야 관심 대상 전체 모집단으로부터 일부의 샘플을 추출, 분석하여 그 결과로부터 전체 모집단에 대한 특성을 예측/추론하는 과정 = 추리 통계, 추측 통계
기법 평균값, 중앙값, 최빈값, 최대값, 최소값, 범위, 분산, 표준편차, 그래프 등 추정: 점추정, 구간추정
가설 검정
통계적 분석 방법: 회귀분석, 분산분석, 판별분석 등
사례 A고등학교 3학년 여학생과 남학생의 평균 몸무게 B기업의 과거 광고비 및 광고비 대비 매출액 자료를 분석하여 예측 모델 개발

 

 

통계 자료(데이터) 측정의 이해

자료(Data)

- 변수: 척도를 이용하여 관심 대상이 되는 개체(Item)의 속성을 측정한 값

- 척도: 서로 다른 변수(속성)을 표현하기 위해 변수에 대한 값을 부여하는 서로 다른 규칙, 변수들의 값을 부여하는 방법

- 측정(Measure): 관심 대상의 속성을 관찰하여 변수값으로 저장하는 과정, 그 결과로 생성된 변수값들을 총칭하여 자료(Data)

 

통계적 자료의 종류

- 질적자료: 수치화 되지 않은 자료의 상태, '키가 크다'와 같은 주관적인 표현

- 양적자료: 질적자료를 객관적인 도구를 이용하여 측정하거나 평가하여 수치화한 자료

구분 설명 예씨
질적자료
(Qualitative Data)
고유한 특성에 따라 분류되는 자료로, 수치화되지 않은 자료의 상태
몇 개의 특성에 의한 범주를 나누어 코드 숫자로 나타낸 자료이며 부여한 수의 의미는 없음 = 범주형 자료
성별: 여성 = 0, 남성 = 1
양적 자료
(Quantitative Data)
질적자료를 객관적인 도구를 이용하여 측정하거나 평가하여 수치화한 자료 = 연속형 자료 코라 몸므게 55.5kg
벼룩 몸무게 56.4kg

 

 

척도(Scale)

- 일정한 규칙을 가지고 기호 또는 숫자로 나타낸 값, 척도는 변수와 각 대응되는 형태를 가짐

- 자료의 구분에 따라 척도가 다름

- 범주형 자료의 평균은 의미가 없으며, 빈도수(Frequency)를 정량화해서 분석이 필요

- 연속형 자료는 가감과 사칙연산이 가능하기 때문에 평균과 편차 등을 산출할 수 있음

 

단변량 자료의 요약

자료 형태 요약 기법 그래프
범주형 자료 도수분포표(Frequency Table) 바차트(막대그림)
파이차트
연속형 자료 중심경향치: 평균, 최빈값, 중앙값
산포도: 범위, 사분위수 범위, 분산, 표준편차, 변동계수
비대칭도: 왜도, 첨도
히스토그램
커널밀도곡선
박스그래프
바이올린그래프

 

 

다변량 자료의 요약

독립변수 종속 변수 요약 기법 분석 기법 그래프
범주형 범주형 도수분포표
분할표(Contingency Table)
카이제곱검정(교차분석)
백분율분석 등
막대그림
파이차트
모자이크 그림
연속형 그룹펼 평균 등 t검정(t-Test), 분산분석 그룹별 막대도표
그룹별 상자그림
연속형 범주형 도수분포표 로지스틱회귀분석 히스토그램
연속형 산술 평균
중앙값
조화평균
상관관계분석,
선형/다중회귀분석 등
점그래프
산점도(행렬)
시계열그래프

 

 

표본조사의 이해

전수조사와 표본조사 비교

구분 전수조사 표본조사
개념 관심의 대상이 되는 집단 내의 모든 단위들을 조사하는 방법 관심의 대상이 되는 전체에서 일부의 부분 집단을 선택한 후, 그 일부 집단에 대해서 조사한 자료를 분석하여 전체 집단의 특성을 추정하는 통계 조사 방법
특징 인력(Workforce)과 예산(Budget) 비교적 많이 소요
현실적인 집단 내 모든 단위를 조사하는 것은 불가능한 경우가 많기 때문에, 대부분의 통계 조사는 표본조사에 의해 이루어짐
전수조사에 비해 비용 절감
조사 결과의 신속성
조사 규모가 크지 않기 때문에 심도 있는 조사 가능
관리가 비교적 잘 되어 정확성이 높음

 

 

표본추출절차

 

표본추출절차 설명

구분 설명
모집단의 정의 조사자가 관심을 가지는 조사 대상을 정의
표본추출프레임 확보 표본추출프레임: 표본추출을 위해 모집단의 구성요소나 표본추출 단위를 결정한 목록
실제 표본추출의 대상이 되는 표본 프레임을 결정함
표본추출방법 결정 확률분포추출방법과 비확률분포추출방법 중 적합한 방법 선택
표본크기의 결정 조사 예산과 시간상의 제약조건을 고려하여 표본의 크기 결정
표본추출 결정된 표본추출방법을 통해 표본추출

 

 

표본추출방법 비교

구분 확률표본추출법 비확률표본추출법
개념 모집단에 속하는 모든 추출 단위에 대해 사전에 일정한 추출확률이 주어지는 표본추출법 각 추출 단위들이 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본 추출법
표본의 추출확률 확률 동일 동일하지 않음
표본추출방법 무작위적 표본추출 주관적 표본추출
표본오차 추정 여부 표본오차 추정 가능 표본오차 추정 불가능
모수 추정의 편향성 동일 확률 적용으로 편향성 낮음 주관적 표본추출로 편향성 높음
경제성 시간과 비용이 많이 소요 확률표본추출법 대비 시간과 비용이 적게 소요

 

 

확률표본추출법(Probability Sampling)

1. 단순확률표본추출(Simple Random Sampling, 단순임의추출법 = 단순무작위추출법)

- 통계 조사에서 가장 기본이 되는 표본추출법

구분 설명
개념 n(난수) / N(전체) = 표본의 비율
장점 모집단에 대해 최소한의 정보만 알고 있어도 됨. 자료 분석이나 오차 계산이 용이
단점 연구자의 이전 경험을 반영할 수 없음. 같은 표본일 때 층화확률추출보다 큰 오차가 생길 수 있음
사례 XX카드 소지자 1,000만 명의 명단을 이용해서 1만 명을 난수로 추출

 

 

2. 계통표본추출(Systematic Sampling)

- 모집단의 추출프레임에서 k번째 간격마다 하나씩 표본으로 추출

k = 추출간격(Sampling Interval), 표본의 크기 n = N/k

구분 설명
개념 모집단의 전체에 번호를 붙여 놓고 첫 번째 선택 후 k개 간격으로 샘플 추출
장점 짧은 시간 내에 효과적으로 표본을 뽑을 수 있음
표본이 크고 모집단의 전체 명단을 이용할 수 있을 때 효과적임
단점 지정되는 번호가 특정 기준으로 일정한 간격을 두고 반복되는 경우 편향된 표본이 추출될 가능성이 있음
사례 A레스토랑 손님 만족도를 조사하기 위해 10, 20, · · ·번째 손님을 추출(k = 10)

 

 

3. 층화확률표본추출(Stratified Random Sampling)

- 모집단을 여러 개의 층으로 분할한 후(층화: 모집단을 몇 개의 부분군으로 나누는 작업), 각 층별로 단순확률표본추출법을 적용시켜 표본을 추출하는 방법

구분 설명
개념 모집단을 서로 겹치지 않는 몇 개의 집단으로 나누어야 하며 이렇게 구성된 집단을 층(Stratum, 관심을 갖고 있는 집단, 각 집단 내에 있는 추출 단위들이 유사하도록 구성)이라고 함
계층 내: 동질성
계층 간: 이질성
장점 표본의 크기를 줄일 수 있음. 표본과 모집단의 동질성 확보로 대표성을 높일 수 있음
단점 사전 모집단의 정보를 충분히 이해하고 있어야 함
사례 서울시장 후보에 대한 선호도를 조사하기 위해 1,000명 조사할 때, 강서구 인구비율이 10%이면, 강서구 내에서 100명 표본 추출

 

 

4. 집락표본추출

- 서로 인접한 기본 단위들로 구성된 집락(군집)을 만들고, 추출된 집락 내의 일부 또는 전체를 조사하여 표본을 추출하는 방법

- 추출 단위가 하나 이상의 기본 단위들로 구성된 집락(Cluster)이며, 표본으로 추출된 집락 내 조사 단위에 대한 리스트만 필요

구분 설명
개념 집락 내: 이질성
집락 간: 동질성
장점 군집 내에서 조사를 진행함으로 조사 과정이 간편, 노력과 비용이 절감됨
단점 표본추출 오차가 발생할 가능성이 큼
사례 1학년 1반에서 10반까지 있는 경우 각 반별 5명씩 랜덤 추출
1학년 1반에서 10반까지 골고루 표본추출: 50명은 동질성을 가짐
각 반별로 특성이 다르기 때문에(이과반, 문과반, 취업반 등) 이질성을 가짐

 

 

5. 다단계 표본추출(Multistage Sampling)

- 최종 단위를 위하여 몇 단계를 거쳐서 표본을 추출하는 방법 (n단계 표본추출법)

- 표집 단위가 지리적으로 규정되면 시간과 노력을 줄일 수 있으나, 표본의 크기가 동일 할 때 표준오차가 크게 나타날 수 있음

 

비확률표본추출법(Non-Probability Sampling)

1. 편의표본추출(Convenience Sampling)

 - 조사원 개인의 자의적인 판단에 따라 간편한 방법으로 표본을 추출

- 예) 자발적으로 참여한 사람들을 대상으로 연구, 길거리 조사

 

2. 판단표본추출(Judgement Sampling, 유의추출법, 판단표집)

- 조사자가 나름의 지식과 경험에 의해 모집단을 가장 잘 대표한다고 여겨지는 표본을 주관적으로 선정

- 표본의 크기가 작은 경우에 조사의 오차를 좌우하는 요인은 추정향의 분산이 됨

- 예) 전체 학생들의 성적을 대표한다고 생각되는 몇 학교를 나름대로 선택하여 평균성적을 알아봄

 

3. 할당표본추출(Quota Sampling)

- 모집단의 부분집단별 구성비율과 표본의 부분집단별 구성비율이 유사하도록 표본 선정

- 중요 변수를 고려하여 표본을 추출하므로 두드러지는 오차는 중일 수 있지만 경우에 따라서는 심각한 오차 발생

- 예) 학생 서비스 만족도 조사를 위해 각 학과별, 학년별, 성별 구성비율을 알아본 다음, 그 비율에 따라 표본을 할당하는 방법

 

4. 눈덩이표본추출(Snowball Sampling)

- 사전에 알고 있는 사람들을 대상으로 해당 집단에 속하는 다른 사람들을 소개받아서 조사 를 진행하는 방법

- 접근이 어렵거나 표본추출프레임의 작성이 곤란한 특정한 집단에 대한 조사에서 사용

- 예) 우리나라 외국인 근로자를 대상으로 우리나라 기업체에 대한 의식을 조사할 경우

 

5. 지원자표본추출(Volunteer Sampling)

- 광고를 통해 연구를 위한 지원자를 모집하여 표본을 추출하는 방법

- 예) 백신 임상실험을 위해 최근 2개월 간 감기가 걸린 사람 20명을 모집하여 시험한다.

 

 

표본 크기와 표본오차와의 관계 및 표본크기 결정시 교러사항

- 표본오차: 표본의 추정값과 모수의 차이

고려사항 설명
모집단의 동질성 정도 전체 집단을 구성하는 요소들이 연구하고자 하는 속성에 있어 비슷한 정도가 높을수록 표본의 크기는 작아질 수 있음
표본추출방법과 절차 표본추출방법에 따라 요구되는 표본수가 다를 수 있음을 고려
집락표본추출 > 단순확률표본추출 > 층화표본추출 순으로 진행
조사 여건 예상 비용, 소요 시간, 조사 인력 등을 고려한 적합한 방식으로 수행
모집단 크기 표본오차를 최소화하는 충분한 표본수 산출
정확성 신뢰수준 99% 혹은 95% 등 표본 추정치에 대한 정확성을 검토
비표본오차 고려 비표본오차: 표본오차(모수와 통계량의 차이)를 제외한 조사 과정에서 발생할 수 있는 오차, 오입력, 계산착오, 응답의 불성실로 인해 발생

 

 

확률의 정의

- 확률(Probability)은 어떤 일이 발생할 가능성(경우의 수)의 척도를 의미

- 0~1 사이의 숫자 혹은 0%~100%의 비율로 표현한 값

 

시행과 사건

- 같은 조건에서 반복할 수 있고, 그 결과가 우연에 의하여 정해지는 시행(Trial) 또는 실험(Experiment)

- 표본공간(Sample Space) 시행으로 얻어진 결과들의 집합

- 사건(Event): 표본공간의 부분집합(A, B, C, ...)

 

확률의 기본 용어: 시행과 사건

구분 용어 설명 주사위 사례
시행(Trial, 확률실행) 같은 조건 하에서 반복실험 가능한 실험이나 관찰 한 개의 주사위 던지는 것
주사위 눈금은 1~6까지 존재
반복 실험이 동일 조건
표본공간
(Sample Space)
동일한 조건으로 실험을 하더라도 서로 다른 결과가 나오는 경우 Ω 또는 S = {1, 2, 3, 4, 5, 6}
표본점
(Sample Point)
표본공간의 각각의 원소들, 즉 어떤 시행에서 발생한 각각의 결과
w1, w2, ..., w6으로 표시
w1 = 1, w2 = 2, ... w6= 6
사건
(Event, 사상)
관심있는 결과의 집합, 표본공간의 부분집합
A, B, ...등으로 표시
주사위 한 번 던졌을 때 홀수가 나오는 경우
A = {1, 3, 5}
근원사건
(Elementary Event)
표본공간의 한 원소로만 이루어진 사건, 즉 한 개의 표본점만을 결과로 갖는 사건
근원사건은 더 이상 나눌 수 없는 사건
근원사건 전체의 합집합 = 표본공간
주사위 한 번 던졌을 때 1이 나오는 경우
B = {1}
사건 A가 일어날 확률 P(A)로 표시, 여기서 P를 확률함수 또는 확률이라고 함 주사위 한 번 던졌을 때 홀수가 나오는 확률
P(A) = P(홀수) = 3/6 = 0.5

 

 

 

사건의 기본 연산

구분 용어 설명
전사건
(Total Event)
반드시 일어나는 사건, 즉 어떤 시행에서 표본공간 전체
전사건 = Ω 또는 S
공사건
(Empty Event)
절대로 일어나지 않는 사건
공사건 = ∅
여사건
(Complementary Event)
어떤 시행에서 발생한 사건에 대하여, 그 사건에 포함되지 않은 결과들을 갖는 사건
사건 A의 여사건 A^c
합사건
(Sum Event, Union)
어떤 시행에서 발생한 두 사건을 A와 B라 할 떄, A또는 B가 발생하는 사건
두 사건 A와 B의 합사건 = A ∪ B 
곱사건
(Product)
어떤 시행에서 발생한 두 사건을 A와 B라 할 때, A와 B가 동시에 발생하는 사건
두 사건 A와 B의 곱사건 = A ∩ B
배반사건
(Exclusive Event)
상호배타
(Mutually Exclusive)
어떤 시행에서 하나의 사건이 발생할 경우 다른 사건이 발생할 수 없는, 즉 동시에 나타날 수 없는 사건
두 사건 A와 B의 배반사건 = ∩ B =

 

 

사건의 연산 사례

구분 설명  
시행(확률 실험) 주사위를 던지는 실험, 주사위 1개를 던져서 맨 윗면에 나타내는 눈의 수 관찰
표본 공간 S = {1, 2, 3, 4, 5, 6]
사건 짝수의 눈이 나오는 사건 A A = {2, 4, 6}
3의 배수의 눈이 나오는 사건 B B = {3, 6}
주사위를 던져서 1의 눈이 나오는 사건 C C = {1}
사건의 기본 연산 합사건 A ∪ B = {2, 3, 4, 6}
곱사건 ∩ B = {6}
배반사건 ∩ B = 

 

 

고전적 확률(Classical Probability, 이론적 확률, 수학적 확률)

 

고전적 확률 예시

구분 설명
시행(확률 실험) 한 개의 주사위를 던질 때, 나오는 눈이 짝수일 확률
전체(표본공간) 경우의 수 S = {1, 2, 3, 4, 5, 6} = 6
사건 짝수의 눈이 나오는 사건 A = {2, 4, 6} = 3
사건의 확률 P(A) = 3 / 6 = 0.5

 

 

경험적 확률(Empirical Probability, 통계쩍 확률, 객관적 확률)

 

+큰 수의 법칙(Law of Larger Number, 대수의 법칙)

- 사건을 무한히 반복할 때 일정한 사건이 일어나는 비율은 횟수를 거듭하면 할수록 일정한 값에 가까워지는 법칙

+중심극한정리(Central Limit Theorem)

- 모집단의 분포에 상관없이 임의의 분포에서 추출된 표본들의 평균의 분포는 정규분포를 이룬다는 법칙(단, n ≥ 30)

 

공리적 확률(Probability Defined by Axioms)

- 공리(Axioms): 증명이 필요 없는 자명한 진리

 

확률의 3가지 공리(확률의 기본 성질)

확률의 공리 공리 정의 설명
공리1 사건 A ⊂ Ω에 대해, 0 ≤ P(A) ≤ 1 어떤 사건도 확률이 음수가 될 수 없고, 1보다 클 수도 없음을 정의
공리2 P(Ω) = 1, P(∅) = 0 어떤 실험의 결과는 표본공간 에서 항상 일어남을 정의 
공리3 P(AB) = P(A) + P(B) 서로 배반인 두 사건 A와 B에 대해, 합사건의 확률은 각각의 확률의 합과 같음

 

여사건의 확률(Complementary Event)

- A의 여사건: 어떤 시행에서 사건 A가 일어나지 않는 사건, A^c

- 여사건 확률 사례

구분 설명
사례 포커게임의 카드 52장 중에서 스페이드를 뽑지 않을 확률
단, 카드는 4가지 모양이 각 13장(스페이드 13장)
스페이드 뽑을 확률 P(A) = 13 / 52 = 0.25
스페이드 뽑지 않을 확률 P(A^c) = 1 - 13 / 52 = 0.75

 

 

배반사건이 아닌 경우의 확률 덧셈법칙 사례

구분 설명
사례 52장의 카드 중에서 빨간색(Red) 또는 퀸(Q)인 카드를 뽑을 확률은?
단, 빨간색 카드는 하트 13장과 다이아몬드 13장, 퀸 카드는 4가지 모양 중 각 하나씩 존재
빨간색 카드를 뽑을 확률 P(R) = 26 / 52
퀸 카드를 뽑을 확률 P(Q) = 4 / 52
빨간색 카드이면서 퀸 카드를 뽑을 확률 P(R ∩ Q) = 2 / 52
빨간색 또는 퀸 카드를 뽑을 확률 P(R ∪ Q) = 26 / 52 + 4 / 52 - 2 / 52 = 28 / 52 = 0.5385 

 

 

독립사건과 종속사건

독립사건(Independent Event)

P(A ∩ B) = P(A)×P(B)

 

종속사건(Dependent Event)

 

P(A ∩ B) ≠ P(A) × P(B)

*배반사건은 종속사건