표본분포
통계량(Statistic)
- 어떤 확률분포로부터 관찰될 수 있는 모든 관측값들, 확률표본을 구성하는 확률변수들의 함수
통계량 예시
구분 | 설명 | |
확률표본 | 각각 n = 5인 확률표본 X1, X2 | |
확률변수 | 확률변수 X1, X2 | |
통계량 | 확률변수의 합 | X1 + X2 |
확률변수의 최소값 | X(1) = min(X1, X2) | |
확률변수의 최대값 | X(n) = max(X1, X2) | |
표본평균 | X바 = (X1 + X2) / 2 | |
중앙값 | X틸트 = median(X1, X2) | |
표본분산 | S^2 |
모집단의 모수와 표본의 통계량 기호
- 비율(Proportion): 전체 중에서 사건이 차지하는 크기
- 비(Ratio): 사건 A와 B의 상대적 크기(성비, 인구밀도)
- 율(Rate): 특정 시간 동안 발생한 사건과 노출된 횟수(보통 1/1,000 사용)
*비율과 율은 같은 의미로 많이 사용
모평균의 분포
평균에 대한 추론의 필요조건
구분 | 설명 |
임의성 | 자료는 임의 표본 혹은 임의 실험으로 산출 |
일반성 | 표본평균의 표본분포는 정규분포를 가정 모집단이 점규분포를 따르면 표본분포는 표본크기와 상관없이 정규분포를 따름 중심극한정리에 따라 표본이 충분히 클 때(n ≥ 30), 모집단의 분포와 상관없이 정규분포를 따름 |
독립성 | 각각의 관측값은 독립이어야 하며, 비복원추출일 경우 표본의 크기는 모집단의 10%를 초과하면 안 됨 |
중심극한정리(Central Limit Theorem)
- 관찰된 모집단의 분포가 실제로 정규분포가 아닌 경우에도 중심극한정리에 의해 모집단의 분포를 정규분포라고 대부분 가정하고 통계 분석
- 일반적으로 n ≥ 30이면 표준정규분포 N(0, 1)를 따른다는 법칙
t분포(Student t-Distribution)
- 모분산(표준편차)이 알려져 있지 않고, 표본이 충분하지 못한 경우(n < 30), 정규분포보다 예측 범위가 넓은 t분포를 사용
t분포의 검정 예시
구분 | |
사례 | 어느 공정에서 관리자가 리터당 제품이 500g씩 제조된다고 주장한다. 이를 입증하기 위해 매월 19개의 표본을 추출하여 시험을 하였다. 95%의 확률로 실험결과가 500g이 아니면 잘못된 주장이라고 한다. 19개의 샘플의 실험결과 표본평균은 518g이고 표준편차는 40g이었다면 어떤 결론을 낼 수 있겠는가? (모집단은 근사적으로 정규분포를 따른다고 가정) |
95% 내에 있을 값 | 표본수 n = 19, 자유도 = n - 1 = 18 주장의 신뢰구간: 95% 신뢰하지 않는 구간 = 5%(0.05) t분포표에서 95%의 t값을 찾으면 t0.025 = 2.101 |
t통계량 | ![]() |
T분포 | ![]() |
결론 | 검정통계량 t = 1.9615는 95% 확률 내에 있기 떄문에 리터당 제품이 500g씩 제조된다고 할 수 있다. |
+studnet 분포의 명명 이유
- t분포는 1908년 영국의 윌리엄 실리 고세트(William Sealy Gosset)에 의해 처음 소개되었다. 그가 근무하던 양조회사에서는 직원들이 논문을 발표하는 것을 허용하지 않아 학생(student)이라는 가명으로 출판하여 스튜던트 t분포라고 부르게 되었다.
비율의 표본분포 예시
구분 | 설명 |
사례 | 어떤 농장에서 판매하는 꽃의 씨앗 발아율은 80%라고 한다. 100개를 심었을 때 75개 이상 발아할 확률은? |
사례 분석 | 모비율(p) = 0.8 표본 수(n) = 100 |
표본비율 | ![]() |
알고자 하는 것 | 100개를 심었을 때 75개 이상 발아할 확률![]() |
표본비율확률 | ![]() |
분포도 | ![]() (Z = -1.25부터의 면적이 89.44%) |
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 추론통계 (0) | 2025.03.05 |
---|---|
[빅데이터분석기사 필기] 기술통계 출제예상문제 오답노트 (0) | 2025.03.04 |
[빅데이터분석기사 필기] 기술통계(2) (0) | 2025.03.03 |
[빅데이터분석기사 필기] 기술통계(1) (0) | 2025.03.02 |
[빅데이터분석기사 필기] 고급 데이터 탐색 출제예상문제 오답노트 (0) | 2025.03.01 |