통계학의 정의
- 통계학(Statistics)은 관심 대상인 모집단(전체 대상)의 특성을 파악하기 위해, 모집단으로부터 관련된 표본(일부 자료)을 수집한 후, 수집된 표본 자료를 요약한 특성을 이용하여, 모집단의 특성에 대해 확률을 이용해 추론하는 학문
+ 통계학의 유래: 라틴어의 Statisticus(확률) 또는 Statisticum(상태), 이탈리아어의 Statista(나라, 정치) 등에서 유래
- 통계(Statistics): 집단 현상에 대한 구체적인 양적 기술을 반영하는 숫자
- 통계학(Statistics): 집단 형상을 수량적으로 관찰하고, 분석하는 방법을 연구하는 학문
예를 들면 국회의원 선거 개표 전, 사전투표로 전체 득표수를 추정하는 것
모집단과 표본
- 모집단: 관심이 있는 대상과 관련된 모든 관측 가능한 값의 집합
- 표본: 집단 속에서 일부를 뽑아내어 조사한 결과로써 모집단의 성질을 추측할 수 있는 통계 자료(모집단의 부분집합)
모집단과 표본
구분 | 설명 | 사례/기법 |
모집단 (Population) |
관측 대상이 되는 전체 집단(어머니 집단) 조사의 대상이 되는 자료 전체 어떤 확률분포로부터 관측될 수 있는 모든 관측값들 |
대한민국 유권자 전체 |
표본 (Sample) |
모집단에서 추출된 자료의 집합 모집단의 부분집합으로서, 실험자가 미지의 확률분포를 조사하기 위해 사용하는 일부 측정값들 |
전체 유권자 중 1,000명 |
모수 (Population Parameters) |
모집단 관측값의 대표값(계산된 모든 값) 모집단을 요약/설명해주는 기술 통계 도구 전수조사를 하지 않는 한 알 수 없는 미지의 수 |
모평균, 모표준푠차, 모비율 등 |
표본 통계량 (Sample Statistic) |
표본 관측값의 요약값(계산된 모든 값) 표본을 요약/설명해주는 기술 통계 도구 = 추정량(Estimator) |
표본평균, 표본표준편차, 표본비율 등 |
추정치(Estimate) | 구체적인 표본에 근거하여 구한 추정량의 값 | A후보자 투표 300명 |
표본추출 (Sampling) |
모집단에서 특정 수만큼 표본을 추출하는 과정 | 확률표본추출, 비확률표본추출 |
표준오차 (Standard Error) |
반복적으로 추출한 표본들 간의 표준편차(표본 간의 변동성) 표본 통계량의 표준편차 |
|
추론/추정 (Inference) |
표본에서 모집단을 추론하는 과정 | 추정, 가설 검정 |
표본오차 (Sampling Error) |
모집단의 모수와 표본의 통계량의 차이 표본으로 삼은 집단을 통해 추출해낸 평균값과 실제 모집단의 평균과의 차이 |
기술 통계와 추론 통계
- 추론 통계를 하기 위해서는 기술 통계가 선행되어야 함
- 기술 통계: 통계량(Statistics)을 구한 다음에, 추론 통계: 모집단의 특성, 모수(Parameter)를 추론하기 떄문에
기술 통계와 추론 통계의 비교
구분 | 기술 통계(Descriptive Statistics) | 추론 통계(Inferential Statistics) |
정의 | 조사 및 측정된 자료를 통해 그 자료가 가지고 있는 특징을 수치, 표, 그래프로 정리하는 과정이고 모수와 표본 통계량을 계산해내는 통계학의 한 분야 | 관심 대상 전체 모집단으로부터 일부의 샘플을 추출, 분석하여 그 결과로부터 전체 모집단에 대한 특성을 예측/추론하는 과정 = 추리 통계, 추측 통계 |
기법 | 평균값, 중앙값, 최빈값, 최대값, 최소값, 범위, 분산, 표준편차, 그래프 등 | 추정: 점추정, 구간추정 가설 검정 통계적 분석 방법: 회귀분석, 분산분석, 판별분석 등 |
사례 | A고등학교 3학년 여학생과 남학생의 평균 몸무게 | B기업의 과거 광고비 및 광고비 대비 매출액 자료를 분석하여 예측 모델 개발 |
통계 자료(데이터) 측정의 이해
자료(Data)
- 변수: 척도를 이용하여 관심 대상이 되는 개체(Item)의 속성을 측정한 값
- 척도: 서로 다른 변수(속성)을 표현하기 위해 변수에 대한 값을 부여하는 서로 다른 규칙, 변수들의 값을 부여하는 방법
- 측정(Measure): 관심 대상의 속성을 관찰하여 변수값으로 저장하는 과정, 그 결과로 생성된 변수값들을 총칭하여 자료(Data)
통계적 자료의 종류
- 질적자료: 수치화 되지 않은 자료의 상태, '키가 크다'와 같은 주관적인 표현
- 양적자료: 질적자료를 객관적인 도구를 이용하여 측정하거나 평가하여 수치화한 자료
구분 | 설명 | 예씨 |
질적자료 (Qualitative Data) |
고유한 특성에 따라 분류되는 자료로, 수치화되지 않은 자료의 상태 몇 개의 특성에 의한 범주를 나누어 코드 숫자로 나타낸 자료이며 부여한 수의 의미는 없음 = 범주형 자료 |
성별: 여성 = 0, 남성 = 1 |
양적 자료 (Quantitative Data) |
질적자료를 객관적인 도구를 이용하여 측정하거나 평가하여 수치화한 자료 = 연속형 자료 | 코라 몸므게 55.5kg 벼룩 몸무게 56.4kg |
척도(Scale)
- 일정한 규칙을 가지고 기호 또는 숫자로 나타낸 값, 척도는 변수와 각 대응되는 형태를 가짐
- 자료의 구분에 따라 척도가 다름
- 범주형 자료의 평균은 의미가 없으며, 빈도수(Frequency)를 정량화해서 분석이 필요
- 연속형 자료는 가감과 사칙연산이 가능하기 때문에 평균과 편차 등을 산출할 수 있음
단변량 자료의 요약
자료 형태 | 요약 기법 | 그래프 |
범주형 자료 | 도수분포표(Frequency Table) | 바차트(막대그림) 파이차트 |
연속형 자료 | 중심경향치: 평균, 최빈값, 중앙값 산포도: 범위, 사분위수 범위, 분산, 표준편차, 변동계수 비대칭도: 왜도, 첨도 |
히스토그램 커널밀도곡선 박스그래프 바이올린그래프 |
다변량 자료의 요약
독립변수 | 종속 변수 | 요약 기법 | 분석 기법 | 그래프 |
범주형 | 범주형 | 도수분포표 분할표(Contingency Table) |
카이제곱검정(교차분석) 백분율분석 등 |
막대그림 파이차트 모자이크 그림 |
연속형 | 그룹펼 평균 등 | t검정(t-Test), 분산분석 | 그룹별 막대도표 그룹별 상자그림 |
|
연속형 | 범주형 | 도수분포표 | 로지스틱회귀분석 | 히스토그램 |
연속형 | 산술 평균 중앙값 조화평균 |
상관관계분석, 선형/다중회귀분석 등 |
점그래프 산점도(행렬) 시계열그래프 |
표본조사의 이해
전수조사와 표본조사 비교
구분 | 전수조사 | 표본조사 |
개념 | 관심의 대상이 되는 집단 내의 모든 단위들을 조사하는 방법 | 관심의 대상이 되는 전체에서 일부의 부분 집단을 선택한 후, 그 일부 집단에 대해서 조사한 자료를 분석하여 전체 집단의 특성을 추정하는 통계 조사 방법 |
특징 | 인력(Workforce)과 예산(Budget) 비교적 많이 소요 현실적인 집단 내 모든 단위를 조사하는 것은 불가능한 경우가 많기 때문에, 대부분의 통계 조사는 표본조사에 의해 이루어짐 |
전수조사에 비해 비용 절감 조사 결과의 신속성 조사 규모가 크지 않기 때문에 심도 있는 조사 가능 관리가 비교적 잘 되어 정확성이 높음 |
표본추출절차
표본추출절차 설명
구분 | 설명 |
모집단의 정의 | 조사자가 관심을 가지는 조사 대상을 정의 |
표본추출프레임 확보 | 표본추출프레임: 표본추출을 위해 모집단의 구성요소나 표본추출 단위를 결정한 목록 실제 표본추출의 대상이 되는 표본 프레임을 결정함 |
표본추출방법 결정 | 확률분포추출방법과 비확률분포추출방법 중 적합한 방법 선택 |
표본크기의 결정 | 조사 예산과 시간상의 제약조건을 고려하여 표본의 크기 결정 |
표본추출 | 결정된 표본추출방법을 통해 표본추출 |
표본추출방법 비교
구분 | 확률표본추출법 | 비확률표본추출법 |
개념 | 모집단에 속하는 모든 추출 단위에 대해 사전에 일정한 추출확률이 주어지는 표본추출법 | 각 추출 단위들이 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본 추출법 |
표본의 추출확률 | 확률 동일 | 동일하지 않음 |
표본추출방법 | 무작위적 표본추출 | 주관적 표본추출 |
표본오차 추정 여부 | 표본오차 추정 가능 | 표본오차 추정 불가능 |
모수 추정의 편향성 | 동일 확률 적용으로 편향성 낮음 | 주관적 표본추출로 편향성 높음 |
경제성 | 시간과 비용이 많이 소요 | 확률표본추출법 대비 시간과 비용이 적게 소요 |
확률표본추출법(Probability Sampling)
1. 단순확률표본추출(Simple Random Sampling, 단순임의추출법 = 단순무작위추출법)
- 통계 조사에서 가장 기본이 되는 표본추출법
구분 | 설명 |
개념 | n(난수) / N(전체) = 표본의 비율 |
장점 | 모집단에 대해 최소한의 정보만 알고 있어도 됨. 자료 분석이나 오차 계산이 용이 |
단점 | 연구자의 이전 경험을 반영할 수 없음. 같은 표본일 때 층화확률추출보다 큰 오차가 생길 수 있음 |
사례 | XX카드 소지자 1,000만 명의 명단을 이용해서 1만 명을 난수로 추출 |
2. 계통표본추출(Systematic Sampling)
- 모집단의 추출프레임에서 k번째 간격마다 하나씩 표본으로 추출
- k = 추출간격(Sampling Interval), 표본의 크기 n = N/k
구분 | 설명 |
개념 | 모집단의 전체에 번호를 붙여 놓고 첫 번째 선택 후 k개 간격으로 샘플 추출 |
장점 | 짧은 시간 내에 효과적으로 표본을 뽑을 수 있음 표본이 크고 모집단의 전체 명단을 이용할 수 있을 때 효과적임 |
단점 | 지정되는 번호가 특정 기준으로 일정한 간격을 두고 반복되는 경우 편향된 표본이 추출될 가능성이 있음 |
사례 | A레스토랑 손님 만족도를 조사하기 위해 10, 20, · · ·번째 손님을 추출(k = 10) |
3. 층화확률표본추출(Stratified Random Sampling)
- 모집단을 여러 개의 층으로 분할한 후(층화: 모집단을 몇 개의 부분군으로 나누는 작업), 각 층별로 단순확률표본추출법을 적용시켜 표본을 추출하는 방법
구분 | 설명 |
개념 | 모집단을 서로 겹치지 않는 몇 개의 집단으로 나누어야 하며 이렇게 구성된 집단을 층(Stratum, 관심을 갖고 있는 집단, 각 집단 내에 있는 추출 단위들이 유사하도록 구성)이라고 함 계층 내: 동질성 계층 간: 이질성 |
장점 | 표본의 크기를 줄일 수 있음. 표본과 모집단의 동질성 확보로 대표성을 높일 수 있음 |
단점 | 사전 모집단의 정보를 충분히 이해하고 있어야 함 |
사례 | 서울시장 후보에 대한 선호도를 조사하기 위해 1,000명 조사할 때, 강서구 인구비율이 10%이면, 강서구 내에서 100명 표본 추출 |
4. 집락표본추출
- 서로 인접한 기본 단위들로 구성된 집락(군집)을 만들고, 추출된 집락 내의 일부 또는 전체를 조사하여 표본을 추출하는 방법
- 추출 단위가 하나 이상의 기본 단위들로 구성된 집락(Cluster)이며, 표본으로 추출된 집락 내 조사 단위에 대한 리스트만 필요
구분 | 설명 |
개념 | 집락 내: 이질성 집락 간: 동질성 |
장점 | 군집 내에서 조사를 진행함으로 조사 과정이 간편, 노력과 비용이 절감됨 |
단점 | 표본추출 오차가 발생할 가능성이 큼 |
사례 | 1학년 1반에서 10반까지 있는 경우 각 반별 5명씩 랜덤 추출 1학년 1반에서 10반까지 골고루 표본추출: 50명은 동질성을 가짐 각 반별로 특성이 다르기 때문에(이과반, 문과반, 취업반 등) 이질성을 가짐 |
5. 다단계 표본추출(Multistage Sampling)
- 최종 단위를 위하여 몇 단계를 거쳐서 표본을 추출하는 방법 (n단계 표본추출법)
- 표집 단위가 지리적으로 규정되면 시간과 노력을 줄일 수 있으나, 표본의 크기가 동일 할 때 표준오차가 크게 나타날 수 있음
비확률표본추출법(Non-Probability Sampling)
1. 편의표본추출(Convenience Sampling)
- 조사원 개인의 자의적인 판단에 따라 간편한 방법으로 표본을 추출
- 예) 자발적으로 참여한 사람들을 대상으로 연구, 길거리 조사
2. 판단표본추출(Judgement Sampling, 유의추출법, 판단표집)
- 조사자가 나름의 지식과 경험에 의해 모집단을 가장 잘 대표한다고 여겨지는 표본을 주관적으로 선정
- 표본의 크기가 작은 경우에 조사의 오차를 좌우하는 요인은 추정향의 분산이 됨
- 예) 전체 학생들의 성적을 대표한다고 생각되는 몇 학교를 나름대로 선택하여 평균성적을 알아봄
3. 할당표본추출(Quota Sampling)
- 모집단의 부분집단별 구성비율과 표본의 부분집단별 구성비율이 유사하도록 표본 선정
- 중요 변수를 고려하여 표본을 추출하므로 두드러지는 오차는 중일 수 있지만 경우에 따라서는 심각한 오차 발생
- 예) 학생 서비스 만족도 조사를 위해 각 학과별, 학년별, 성별 구성비율을 알아본 다음, 그 비율에 따라 표본을 할당하는 방법
4. 눈덩이표본추출(Snowball Sampling)
- 사전에 알고 있는 사람들을 대상으로 해당 집단에 속하는 다른 사람들을 소개받아서 조사 를 진행하는 방법
- 접근이 어렵거나 표본추출프레임의 작성이 곤란한 특정한 집단에 대한 조사에서 사용
- 예) 우리나라 외국인 근로자를 대상으로 우리나라 기업체에 대한 의식을 조사할 경우
5. 지원자표본추출(Volunteer Sampling)
- 광고를 통해 연구를 위한 지원자를 모집하여 표본을 추출하는 방법
- 예) 백신 임상실험을 위해 최근 2개월 간 감기가 걸린 사람 20명을 모집하여 시험한다.
표본 크기와 표본오차와의 관계 및 표본크기 결정시 교러사항
- 표본오차: 표본의 추정값과 모수의 차이
고려사항 | 설명 |
모집단의 동질성 정도 | 전체 집단을 구성하는 요소들이 연구하고자 하는 속성에 있어 비슷한 정도가 높을수록 표본의 크기는 작아질 수 있음 |
표본추출방법과 절차 | 표본추출방법에 따라 요구되는 표본수가 다를 수 있음을 고려 집락표본추출 > 단순확률표본추출 > 층화표본추출 순으로 진행 |
조사 여건 | 예상 비용, 소요 시간, 조사 인력 등을 고려한 적합한 방식으로 수행 |
모집단 크기 | 표본오차를 최소화하는 충분한 표본수 산출 |
정확성 | 신뢰수준 99% 혹은 95% 등 표본 추정치에 대한 정확성을 검토 |
비표본오차 고려 | 비표본오차: 표본오차(모수와 통계량의 차이)를 제외한 조사 과정에서 발생할 수 있는 오차, 오입력, 계산착오, 응답의 불성실로 인해 발생 |
확률의 정의
- 확률(Probability)은 어떤 일이 발생할 가능성(경우의 수)의 척도를 의미
- 0~1 사이의 숫자 혹은 0%~100%의 비율로 표현한 값
시행과 사건
- 같은 조건에서 반복할 수 있고, 그 결과가 우연에 의하여 정해지는 시행(Trial) 또는 실험(Experiment)
- 표본공간(Sample Space) 시행으로 얻어진 결과들의 집합
- 사건(Event): 표본공간의 부분집합(A, B, C, ...)
확률의 기본 용어: 시행과 사건
구분 | 용어 설명 | 주사위 사례 |
시행(Trial, 확률실행) | 같은 조건 하에서 반복실험 가능한 실험이나 관찰 | 한 개의 주사위 던지는 것 주사위 눈금은 1~6까지 존재 반복 실험이 동일 조건 |
표본공간 (Sample Space) |
동일한 조건으로 실험을 하더라도 서로 다른 결과가 나오는 경우 | Ω 또는 S = {1, 2, 3, 4, 5, 6} |
표본점 (Sample Point) |
표본공간의 각각의 원소들, 즉 어떤 시행에서 발생한 각각의 결과 w1, w2, ..., w6으로 표시 |
w1 = 1, w2 = 2, ... w6= 6 |
사건 (Event, 사상) |
관심있는 결과의 집합, 표본공간의 부분집합 A, B, ...등으로 표시 |
주사위 한 번 던졌을 때 홀수가 나오는 경우 A = {1, 3, 5} |
근원사건 (Elementary Event) |
표본공간의 한 원소로만 이루어진 사건, 즉 한 개의 표본점만을 결과로 갖는 사건 근원사건은 더 이상 나눌 수 없는 사건 근원사건 전체의 합집합 = 표본공간 |
주사위 한 번 던졌을 때 1이 나오는 경우 B = {1} |
사건 A가 일어날 확률 | P(A)로 표시, 여기서 P를 확률함수 또는 확률이라고 함 | 주사위 한 번 던졌을 때 홀수가 나오는 확률 P(A) = P(홀수) = 3/6 = 0.5 |
사건의 기본 연산
구분 | 용어 설명 |
전사건 (Total Event) |
반드시 일어나는 사건, 즉 어떤 시행에서 표본공간 전체 전사건 = Ω 또는 S |
공사건 (Empty Event) |
절대로 일어나지 않는 사건 공사건 = ∅ |
여사건 (Complementary Event) |
어떤 시행에서 발생한 사건에 대하여, 그 사건에 포함되지 않은 결과들을 갖는 사건 사건 A의 여사건 A^c |
합사건 (Sum Event, Union) |
어떤 시행에서 발생한 두 사건을 A와 B라 할 떄, A또는 B가 발생하는 사건 두 사건 A와 B의 합사건 = A ∪ B |
곱사건 (Product) |
어떤 시행에서 발생한 두 사건을 A와 B라 할 때, A와 B가 동시에 발생하는 사건 두 사건 A와 B의 곱사건 = A ∩ B |
배반사건 (Exclusive Event) 상호배타 (Mutually Exclusive) |
어떤 시행에서 하나의 사건이 발생할 경우 다른 사건이 발생할 수 없는, 즉 동시에 나타날 수 없는 사건 두 사건 A와 B의 배반사건 = A ∩ B = ∅ |
사건의 연산 사례
구분 | 설명 | |
시행(확률 실험) | 주사위를 던지는 실험, 주사위 1개를 던져서 맨 윗면에 나타내는 눈의 수 관찰 | |
표본 공간 | S = {1, 2, 3, 4, 5, 6] | |
사건 | 짝수의 눈이 나오는 사건 A | A = {2, 4, 6} |
3의 배수의 눈이 나오는 사건 B | B = {3, 6} | |
주사위를 던져서 1의 눈이 나오는 사건 C | C = {1} | |
사건의 기본 연산 | 합사건 | A ∪ B = {2, 3, 4, 6} |
곱사건 | A ∩ B = {6} | |
배반사건 | A ∩ B = ∅ |
고전적 확률(Classical Probability, 이론적 확률, 수학적 확률)
고전적 확률 예시
구분 | 설명 |
시행(확률 실험) | 한 개의 주사위를 던질 때, 나오는 눈이 짝수일 확률 |
전체(표본공간) 경우의 수 | S = {1, 2, 3, 4, 5, 6} = 6 |
사건 | 짝수의 눈이 나오는 사건 A = {2, 4, 6} = 3 |
사건의 확률 | P(A) = 3 / 6 = 0.5 |
경험적 확률(Empirical Probability, 통계쩍 확률, 객관적 확률)
+큰 수의 법칙(Law of Larger Number, 대수의 법칙)
- 사건을 무한히 반복할 때 일정한 사건이 일어나는 비율은 횟수를 거듭하면 할수록 일정한 값에 가까워지는 법칙
+중심극한정리(Central Limit Theorem)
- 모집단의 분포에 상관없이 임의의 분포에서 추출된 표본들의 평균의 분포는 정규분포를 이룬다는 법칙(단, n ≥ 30)
공리적 확률(Probability Defined by Axioms)
- 공리(Axioms): 증명이 필요 없는 자명한 진리
확률의 3가지 공리(확률의 기본 성질)
확률의 공리 | 공리 정의 | 설명 |
공리1 | 사건 A ⊂ Ω에 대해, 0 ≤ P(A) ≤ 1 | 어떤 사건도 확률이 음수가 될 수 없고, 1보다 클 수도 없음을 정의 |
공리2 | P(Ω) = 1, P(∅) = 0 | 어떤 실험의 결과는 표본공간 Ω에서 항상 일어남을 정의 |
공리3 | P(A ∪ B) = P(A) + P(B) | 서로 배반인 두 사건 A와 B에 대해, 합사건의 확률은 각각의 확률의 합과 같음 |
여사건의 확률(Complementary Event)
- A의 여사건: 어떤 시행에서 사건 A가 일어나지 않는 사건, A^c
- 여사건 확률 사례
구분 | 설명 |
사례 | 포커게임의 카드 52장 중에서 스페이드를 뽑지 않을 확률 단, 카드는 4가지 모양이 각 13장(스페이드 13장) |
스페이드 뽑을 확률 | P(A) = 13 / 52 = 0.25 |
스페이드 뽑지 않을 확률 | P(A^c) = 1 - 13 / 52 = 0.75 |
배반사건이 아닌 경우의 확률 덧셈법칙 사례
구분 | 설명 |
사례 | 52장의 카드 중에서 빨간색(Red) 또는 퀸(Q)인 카드를 뽑을 확률은? 단, 빨간색 카드는 하트 13장과 다이아몬드 13장, 퀸 카드는 4가지 모양 중 각 하나씩 존재 |
빨간색 카드를 뽑을 확률 | P(R) = 26 / 52 |
퀸 카드를 뽑을 확률 | P(Q) = 4 / 52 |
빨간색 카드이면서 퀸 카드를 뽑을 확률 | P(R ∩ Q) = 2 / 52 |
빨간색 또는 퀸 카드를 뽑을 확률 | P(R ∪ Q) = 26 / 52 + 4 / 52 - 2 / 52 = 28 / 52 = 0.5385 |
독립사건과 종속사건
독립사건(Independent Event)
P(A ∩ B) = P(A)×P(B)
종속사건(Dependent Event)
P(A ∩ B) ≠ P(A) × P(B)
*배반사건은 종속사건
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 기술통계(3) (0) | 2025.03.04 |
---|---|
[빅데이터분석기사 필기] 기술통계(2) (0) | 2025.03.03 |
[빅데이터분석기사 필기] 고급 데이터 탐색 출제예상문제 오답노트 (0) | 2025.03.01 |
[빅데이터분석기사 필기] 고급 데이터 탐색 (1) | 2025.03.01 |
[빅데이터분석기사 필기] 데이터 탐색 기초 출제예상문제 오답노트 (0) | 2025.02.28 |