분류 전체보기 57

[빅데이터분석기사 필기] 추론통계

통계적 추론의 분류분류 기준통계적 추론 분포 가정 유무에따른 분류모수적 추론 = 모수 통계(Parametric Inference)모집단에 대해서 특정 분포를 가정하고, 그 분포를 결정하는 모수에 대해 추론하는 방법모수 검정 방법: t검정, 분산분석, 회귀분석 등비모수적 추론 = 비모수 통계(Non-Parametric Inference)모집단에 대해 특정한 분포를 가정하지 않고, 주로 이상값이 존재할 때 사용비모수 검정 방법: 콜모고로프-스미르노프, 윌콕슨 부호 순위 검정, 맨-휘트니U모수 처리방식에따른 분류빈도론자 추론(Frequentist Inference)모수를 고정된 값인 상수라고 가정베이지안 추론(Bayesian Inference)미지의 값(모수, 결측값, 미래값)을 확률변수라고 가정하고, 해당 ..

[빅데이터분석기사 필기] 기술통계 출제예상문제 오답노트

[틀린 문제] 13. 확률표본의 설명으로 옳지 않은 것은?① 모집단으로부터 표본으로 추출될 확률을 알 수 있다.② 단순확률표본 추출 방법이 기본 전제이다.③ 표본의 수가 증가할 수록 표본오차는 감소한다.④ 신뢰수준이 높을 수록 표본오차는 감소한다.✅ 신뢰수준이 높아지면 더 많은 경우를 포함하기 때문에 표본오차가 증가✅ 표본 크기가 커지면 모집단의 특성을 더 정확히 반영할 수 있어서 표본오차 감소 35~38 계산문제는 4과목 모두 학습 후 한 번 더 복습하기 [헷갈린 문제] 31. 통계학은 표본을 통해 관심 대상인 모집단의 특성을 파악하는 학문이다. 모집단과 표본에 대한 설명 중 가장 알맞지 않은 것은?① 모집단은 관측 대상이 되는 전체 집단으로 조사의 대상이 되는 자료를 의미한다.② 표본은 모집단의 부분..

[빅데이터분석기사 필기] 기술통계(3)

표본분포통계량(Statistic)- 어떤 확률분포로부터 관찰될 수 있는 모든 관측값들, 확률표본을 구성하는 확률변수들의 함수 통계량 예시구분설명확률표본각각 n = 5인 확률표본 X1, X2확률변수확률변수 X1, X2통계량확률변수의 합X1 + X2확률변수의 최소값X(1) = min(X1, X2)확률변수의 최대값X(n) = max(X1, X2)표본평균X바 = (X1 + X2) / 2중앙값X틸트 = median(X1, X2)표본분산S^2  모집단의 모수와 표본의 통계량 기호 - 비율(Proportion): 전체 중에서 사건이 차지하는 크기- 비(Ratio): 사건 A와 B의 상대적 크기(성비, 인구밀도)- 율(Rate): 특정 시간 동안 발생한 사건과 노출된 횟수(보통 1/1,000 사용)*비율과 율은 같은 ..

[빅데이터분석기사 필기] 기술통계(2)

확률의 계산복원추출과 비복원추출- 복원추출(Sampling with Replacement): 추출된 원소를 다음 표본추출 대상에 포함, 중복 가능, 독립사건- 비복원추출(Sampling without Replacement): 추출된 원소 제외, 표본공간이 바뀌어 종속사건  복원추출과 비복원추출 확률 계산구분설명예시네모박스에 공이 10개가 있고, 검은색 공 7개와 빨간색 공 3개가 들어 있다고 하자. 연속해서 2개의 공을 뽑았을 때 빨간색 공을 뽑을 확률은 아래와 같다.비복원추출(종속사건)첫 번째 공 선택이 빨간색 공일 확률P(A)두 번째 공 선택이 빨간색 공일 확률P(B)첫 번째 공과 두 번째 공이 빨간색 공일 확률P(A ∩ B) = P(A) × P(B|A)3 / 10 × 2 / 9 = 6 / 90 = ..

[빅데이터분석기사 필기] 기술통계(1)

통계학의 정의- 통계학(Statistics)은 관심 대상인 모집단(전체 대상)의 특성을 파악하기 위해, 모집단으로부터 관련된 표본(일부 자료)을 수집한 후, 수집된 표본 자료를 요약한 특성을 이용하여, 모집단의 특성에 대해 확률을 이용해 추론하는 학문+ 통계학의 유래: 라틴어의 Statisticus(확률) 또는 Statisticum(상태), 이탈리아어의 Statista(나라, 정치) 등에서 유래- 통계(Statistics): 집단 현상에 대한 구체적인 양적 기술을 반영하는 숫자- 통계학(Statistics): 집단 형상을 수량적으로 관찰하고, 분석하는 방법을 연구하는 학문예를 들면 국회의원 선거 개표 전, 사전투표로 전체 득표수를 추정하는 것 모집단과 표본- 모집단: 관심이 있는 대상과 관련된 모든 관측..

[빅데이터분석기사 필기] 고급 데이터 탐색 출제예상문제 오답노트

책에 내용이 없는 문제들이 많아서 좀 당황스럽다.다른 챕터와 내용이 겹쳤거나 내용이 그냥 missing이거나 한 듯...  [틀린 문제] 05. 다변량 데이터를 탐색하기 위한 기법의 연결이 알맞지 않은 것은?① 변수들 간의 관계: 다중회귀분석, 로지스틱회귀, 분산분석② 차원축소: 주성분분석, 정준상관분석③ 개체분류: 판별분석, 다차원척도법④ 교차분석: 다변량분산분석✅ 다변량 분산분석: 변수들 간의 관계를 분석, 교차분석과 다변량분산분석 모두 변수들 간의 관계 분석 기법  06. 교차분석 기법에 대한 설명으로 가장 알맞은 것은?① 1개 또는 그 이상의 범주 변수에 대해 교차시켜 빈도를 분석하다.② 교차표의 차이가 통계적으로 유의한지는 카이제곱검정을 통해 확인 가능하다.③ 교차분석은 피벗테이블, 분할표분석과..

[빅데이터분석기사 필기] 고급 데이터 탐색

시공간 데이터 탐색- 시공간 데이터(Spatio-Temporal Data): 공간적 속성 + 비공간적 속성의 이산적인 변화 등 복잡- 데이터 마이닝 등을 이용하여 대용량 데이터에 존재하는 유용한 정보 탐색, 시각화 시간 데이터 탐색- 시간데이터(Temporal Data): 연도별(Annual), 분기별(Quarterly), 월별(Monthly), 일별(Daily), 시간별(Hourly) 등- 과거 시계열 자료의 패턴을 분석하여 예측(Forecast)이나, 추세(Trend), 계절성(Seasonality), 주기(Cycle) 등 확인 공간 데이터 탐색 및 시공간 데이터 탐색- 공간 데이터(Spatial Data): 지도 및 지도 위에 표현이 가능하도록 위치, 분포 등을 알 수 있는 정보- 지하, 지상 등 ..

[빅데이터분석기사 필기] 데이터 탐색 기초 출제예상문제 오답노트

[틀린 문제] 02. 탐색적 데이터 분석(EDA)의 목적에 대한 설명으로 가장 부적절한 것은?① 데이터에 대한 전반적인 이해를 통해 분석 가능한 데이터인지 확인하는 단계이다.② 탐색적 데이터 분석 과정은 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정이다.③ 데이터를 시각화하는 것만으로는 이상점(Outlier) 식별이 잘 되지 않는다.④ 알고리즘이 학습을 얼마나 잘 하느냐 하는 것은 전적으로 데이터의 품질과 데이터에 담긴 정보량에 달려 있다.✅ 4번도 문제가 참... 전적으로 데이터에 달려 있진 않고 알고리즘의 구조와 선택, 하이퍼파라미터 튜닝 등 있잖아요...  33. 다음 중 데이터시각화 방법에 대한 설명으로 가장 적절한 것은?① 데이터 시각화는 탐색적 데이터 분석에서 선택 과정으로 수치..

[빅데이터분석기사 필기] 데이터 탐색 기초

데이터 탐색 과정구분묘사적 데이터 분석(DDA: Descriptive Data Analysis)탐색적 데이터 분석(EDA: Exploratory Data Analysis)확증적 데이터 분석(CDA: Confirmatory Data Analysis)예측적 데이터 분석(PDA: PredictiveData Analysis)목적현재의 모습을 요약하여 기술 수집된 데이터의 표현수집된 데이터를 탐색하여 이해하고, 가설 도출도출된 가설 검정관계식을 만들고 최적의 조건을 예측분석도구평균, 표준편차, 빈도수, 백분위수, 첨도, 왜도 등그래프 분석(히스토그램, 파레토 파트, Box Plot 등)정규성 확인, 트렌드 분석추정(점추정, 구간추정)가설검정(Z검정, t검정, 분산분석, 회귀분석 등)모델링 기법(K-NN, Nuer..

[빅데이터분석기사 필기] 분석 변수 처리 출제예상문제 오답노트

[틀린 문제] 01. 분석 변수 처리에 관한 설명으로 알맞지 않은 것은?① 확보한 데이터를 사용하여 정보를 추가하는 일련의 과정이다.② 새로운 데이터(관측치나 변수)를 추가하지 않고도 기존 데이터를 유용하게 만드는 방법론으로 볼 수 있다.③ 변수의 개수에 대해 비즈니스의 의미와 특성을 보존하면서 변수를 축소시키는 과정이 중요하다.④ 분석 변수 처리는 결과에 중요한 영향을 주지 않는 변수일 경우는 생략 가능하다.✅ 데이터의 축소, 생성, 처리 과정을 거쳐 원하는 결과를 도출하는 기반이 되는 작업으로 반드시 필요하다. -> 다른 변수와 결합해서 유의미할 수도 있으니까  17. 다음은 변수 선택 방법에 대한 설명이다. 다음 중 옳은 것을 고르시오.① 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법..