빅데이터분석기사

[빅데이터분석기사 필기] 2~8회 기출 정리

Jia H 2025. 3. 26. 11:46

[1과목]

데이터 거버넌스: 원칙, 조직, 프로세스

 

데이터 엔지니어: 마이그레이션, 모니터링

데이터 아키텍트: 구조, 설계 관리

데이터 개발자: 개발

데이터 기획자: 요구사항 정의, 기획

 

빅데이터 분석 절차: 분석 기획 → 데이터 준비 → 데이터 분석 → 평가 및 전개 → 시스템 구현

빅데이터 분석 기획 절차: 범위 설정 → 프로젝트 정의 → 수행계획 수립 → 위험계획 수립

데이터분석 마스터플랜: 분석대상 수행과제 도출 → 우선순위 평가 → 단기적 세부 이행 계획 → 중장기 분석 로드맵 수립

 

데이터 준비 단계: 수집, 탐색, 전처리, 정제, 변환, 통합

데이터 준비 과정: 수집 → 정제 → 변환 → 전처리 → 저장 및 활용 (CCTPS)

 

상향식접근법: 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요건 정의

 

개인정보차등보호: 개인정보에 노이즈 추가해서 개인정보보호와 데이터분석 모두 진행하는 방법

 

DB to DB: DW, DM

FTP: 대량(로그,백업)

OpenAPI: 외부 서비스 / HTTP: 웹 

 

서열변수: 순서/간격 불균등

등간변수: 간격 일정, 절대적인 0 없음

비율변수: 간격 일정, 절대적인 0 존재

 

정규화: 일정한 범위(like 0~1), Min-Max(정규화): 0~1 

표준화: 평균0 표준편차1, 단위X, Z=(X−μ)/ σ, 평균을 빼고 표준편차로 나눔

범주화: 연속→범주, 일반화: 포괄적인 범주(메르세데스→자동차차)

정형화: 비정형→정형

평활화: 노이즈 제거, 추세 파악, 예측 모델 개선 / 우시안 필터, 이동평균, 로컬 회귀

 

데이터 웨어하우스 특징: 주제 지향적, 통합성, 시계열적, 비휘발성, 분석 최적화, 대용량 처리, ETL 프로세스 활용

 

분산파일시스템: 네크워트를 통해 호스트에 있는 데이터 접근

분산파일시스템: HDFS, CephFS, GlusterFS, MooseFS, GFS

HDFS: 네임노드가 망가지면 정상적인 작동 못함, 범용 하드웨어 사용(확장성)-수평적 확장

HDFS: Apache Hadoop, 마스터-슬레이브(노드), 추가O 수정X

 

Tajo: 하둡 기반 ETL과 Low-Latency, Long Term Query, AD Hoc Query

스파크: 인메모리

 

API GW(게이트웨이): 시스템의 전방에 위치, 클라이언트로부터 다양한 서비스를 처리, 내부 시스템으로 전달 미들웨어

 

Nosql DB: MongoDB(doc), DynamoDB(key-val), Cassandra(col)

 

key-value 데이터 베이스: 단순, 고속, 수평 확장, 모든 유형의 데이터, 키와 값

 

자가회귀 결측값 대체의 영향: 상관성 증가, 분산 감소

 

분석기획 우선순위 고려요소: 중요도, 분석가능성, ROI(Return On Investment)

 

CRISP-DM 절차: 업무 이해 → 데이터 이해 → 평가 → 전개

 

전이 학습: 이미 학습된 모델 반영 재학습 효율up 

강화 학습:  보상 최대화, 시행착오 통해 최적 찾기

 

WBS: Work Breakdown Structure

 

스캠퍼(SCAMPER): 브레인스토밍 기법

 

PB(페타)-EB(엑사)-Z(제타)B-Y(요타)B: PEZY

 


[2과목]

 

기하분포: 처음 성공

초기하분포: 성공 개수, 각 시행 독립X(성공횟수 고정), 성공확률 일정하지 않음(비복원추출)

t분포: 평균, 연속확률 / 카이제곱: 분산, 독립성, 적합도, 연속확률

 

다중대치법: 여러 예측값 생성 후 선택

 

파생변수: 시점/교호작용/특정 조건으로 생성 가능, 교호작용: 2개 이상의 독립변수가 함께 작용하면 합 이상의 영향

 

구분자: 쉼표, 세미콜론, 탭 등 데이터 나누는 특정 문자(기호);

 

데이터 이상값 발생 원인: 입력오류, 측정오류, 처리오류, 표본오류(크기/편향) / 보고오류 ≠ 이상값

 

일변량 이상값 검출방법: IQR(사분위수), 산포도, 3*표준편차

 

레버리지: 회귀진단 이상값, 영향값 탐색, 이상치 측정(0~1)

AIC(Akaike Information Criterion): 적합도

 

회귀모수 개수: 회귀 분석에서 모델이 학습해야하는 계수 (y=β0​+β1​x1​+β2​x2​+⋯+βk​xk​+에서 β개수) / 범주-1x독립변수+절편

 

자기회귀: 이전 값 / 이동평균: 과거 오차(랜덤 노이즈) / 자기회귀이동평균: 둘 다 / 자기회귀누적이동평균-추세 제거(차분)

 

Box-Cox 변환: 0/음수 데이터X(양수로 변환 후 적용)

 

피어슨 상관계수: 비율/등간,  |r| >= 0/8~0.9 변수 제거 고려

스피어만 상관계수: 서열

 

평상관분석: 다른 변수 영향 제외하고 두 변수 간의 순수한 상관관계, 카이제곱: 독립성(관련성), 적합도(기대값일치)

 

정규분포 왜도=0, 첨도=3

꼬리쪽으로 평균(이상치 끌어당김)

왜도 꼬리=부호 (오른쪽 꼬리 +, 왼쪽 꼬리 -)(왼쪽꼬리 음수, 오른쪽꼬리 양수)

 

표본분산: 불편추정량을 위해 무조건 n-1로 나눔

불편추정량: 표본 작아서 분산도 작아지는 것 보정,  bias=0

편향/일치치추정량:n으로 나눔

 

잔차: 선형성, 정규성(평균 0), 등분산성(분산 같음), 독립성(무작위분포) / *잔차 자유도 = n - (독립변수개수 + 1)

 

모평뷴/모분산 통계량 4가지 준거: 불편성, 일치성, 유효성, 충분성

 

분산 변수선택: 분산이 작은 데이터 제거

 

Cov(X,Y)=0이면 독립이 아니라 선형 관계가 없는 것, 공분산: 선형관계

 

변동률: 기하평균 / 변동계수:분산(표준편차, 평균)

 

최빈값: 범주형,특정값 / 중앙값: 이상치 많음 / 평균: 연속형,정규분포

 

모자이크 플롯: 범주형x범주형, 면적=비율/빈도

 

더미 코딩: 원-핫 인코딩에서 하나의 범주 제거(차원 감소, 다중공선성 완화)

 

클래스 불균형 방안: 임계값 이동, 비용 함수 민감 학습, 오버샘플링/언더샘플링

 

샘플링 기법: Metropolis-Hastings Algorithm, Pefect Sampling, Rejection Sampling / 파라미터 최적화: EM Algorithm

 

표본 N이 커지면 표본평균의 분산↓ 표준오차↓

 

중심극한정리: 표본평균 분포, 표본 크기 n이 클수록 정규분포 (CLT: Central Limit Theorem)

 

귀무가설: 알고 있는 사실, 대립가설: 증명하고 싶은 가설

 

서술적 분석: 무슨 일 what / 진단 분석: 왜 그런 일 why / 규범 분석: 무엇을 해야 할지 how

 

로지스틱 회귀: 정규성 가정 X(범주형, 확률 예측)

 

패널 데이터: 시간에 따라(같은 사람에 대해 1,2,3년 등 여러 해)

 

네트워크 중심성: 매개중심성, 근접중심성, 연결중심성(차수중심성), 고유벡터중심 / 네트워크에서 노드 중요도 측정 지표

 

래퍼기법의 래퍼: 변수들을 wrapping해서 변수 set을  조합하는 것

 

점추정 방법: 적률법, 평균제곱오차, 최대가능도추정법

 

SMOTE: Synthetic minority Over-sampling Technique

 


[3과목]

배치(Batch): 속도/정확도(학습성능) - 배치↑: 학습 안정적, 전체 학습 속도↑,  업데이트 횟수/속도↓

 

좋은 모델은 편향↓ 분산↓

 

분산팽창계수(VIF: Variance Inflation Factor) = 1 / (1 - R^2)

 

양측검정(α-Z): 10%-1.645, 5%-19.6, 1%-2.576

단측검정: 10%-1.282, 5%-1.645, 1%-2.326

 

다중회귀분석: P > |t| <= 0.05 유의미(유의수준5%), 결정계수 R^2↑ 유의미 but 독립변수↑R^2↑으로 조정된 결정계수 필요

결정계수(R^2)=상관계수(r)^2

결정계수(R^2): 0과 1사이, 1에 가까울 수록 좋음(1쪽은 과적합 주의)

 

회귀분석 모델 평가: 회귀계수검정 → 독립변수 검정 → 회귀모델 유의성 검정 (개별 → 다중공선성 →평가)

 

과적합 방지: 입력 노드↓(복잡도↓), 가중치 제한, Epoch↓(조기 종료), 은닉층↓ / epoch:전체학습횟수, iter: 가중치업데이트횟수

 

DBSCAN(Density-Based Spatial of Applications with Noise), Mixture Model: 노이즈처리X중첩O계산량↑

 

PCA: 특이값 분해(SVD: Singular Value Decomposition) 상관행렬, 공분산행렬

PCA 분석표: Cumulative Proportion 중요, 80%이상의 분산을 설명하는 주성분 기준 등

NMF(비음수행렬분해=텍스트,이미지분석)

 

정상성=일정/ 종단(longitudinal/세로): 시간을 따라 변화 추적 / 횡단(cross-sectional): 특정 시점 여러개체

 

라쏘(L1): 가중치0, 릿지(L2): 가중치 작게 not 0

수식) 라쏘: 절대값 / 릿지: 제곱 / 엘라스틱: 라쏘+릿지 / 로지스틱: 시그모이드 / 단순: 다항식(일차식)

시그모이도(0~1) 하이퍼볼릭탄젠트(-1~1)

 

다중공선성: 독립변수 간의 상관성, 클수록 모델에 악영향 (독립변수들은 서로 독립적이어야 하는데)

 

선형회귀:최소제곱법, 오차항 가정

선형회귀분석 오차항 특성: 평균 0, 등분산성, 독립성, 정규성

로지스틱회귀: 최대우도추정(발생할 가능성이 높은 likelihood 파라미터), 확률 예측 0~1

 

의사결정나무: 동질성↑ 이질성↓, 교호작용 반영, 정규성 가정 X

의사결정나무 정지규칙: 임계값 이하, 최대 깊이 제한, 더 이상 나눌 수 없음

의사결정나무:분리기준(지니,에트로피,정보이득,분산감소) / 알파컷: 임계값(알파) 이상 요소만 선택

의사결정트리 가지치기 수행-일반화

 

인공신경망 출력값 = (은닉 노드 값x가중치) + 편향 

합성곱신경망(CNN)에서 특징맵(피처맵) 크기 = (input - filter + 2*padding) / stride +1

RNN 장기의존성, 단측(일방향), 양측(두방향)

GRU: (Reset,Update), 빠른속도

LSTM: (Forget,Input,Output)

 

SVM: 마진 최대화, 분류/회귀/이상탐지, 커널함수-비선형분류, 최적화 해야겠지 당연히

SVM: 고차원에서의 특징추출이 어려운 경우 차원의 저주 회피

SVM 커널: 선형 커널, 다항 커널, RBF(가우시안) 커널, 시그모이드 커널, 하이퍼볼릭탄젠트 커널, 라플라시안 커널

 

k-fold: 훈련데이터: 데이터 충분하지 않을 때 용이

 

유클리드: 루트

맨해튼: 절대값, 수평/수직 거리 합

체비쇼프: 최대값

민코우스키: p값

마할라노비스: 벡터, 공분산 행렬 S

 

위험도: 위험도 단순 비교, 승산비: 승 구하고(yes/not), 승산 비교

 

설명률: Proportion of Variance - 각 요인이 설명하는 변수의 분산 비율

 

향상도 L(A→B) = P(A∩B) / P(A) x P(B), 지지도 = P(A∩B), 신뢰도 = P(A∩B) / P(A)

 

오즈(Odds): 사건이 일어날 확률과 일어나지 않을 확률의 비율 / log연산 통해 0~1 logit 획득

 

다변량 분산 분석(MANOVA): 1이상(N)독립변수-M종속변수

ANOVA: 1독립1종속

ANOVA: F-검정: F = MSR/MSE, 평균=제곱합/자유도

 

카이제곱값 = Σ (Oi - Ei)^2 / Ei

 

모수검정:정규분포-z, t, ANOVA, 회귀 / 비모수:분포가정X-카이제곱(범주), 윌콕슨(두집단), 크루스칼왈리스(3이상집단)

공분산: 종속-연속 / t검정: 독립 2개-범주, 종속-연속 / 카이제곱: 독립 2개-범주, 종속-범주

공분산분석 ⊃ 일원(독립변수1개), 이원(독립변수2개)

 

차원축소 pros: 특징 추출, 노이즈 제거, 해석 용이, 차원의 저주 해결, 계산 비용 감소, 성능 향상(과적합↓)

 

요인분석: 고유값과 스크리도표 활용으로 적절한 수의 요인 산출 가능

 

시계열 요일: 트렌드(추세), 계절성, 주기성, 불규칙성, 변동성

추세 요인: 중/장기적, 빈번한 발생 빈도 없는 패턴

 

나이브 베이즈: 독립성, 빠름, 가벼움, 해석 쉬움, 사전/사후 확률로 우도 계산, 노이즈/결측값 okay

 

Seq2Seq인코더: 고정된 길이의 벡터(Context Vector)로 변환 (텍스트→숫자: 01벡터)

 

Word2Vec&Word Embedding: 단어→벡터 / TF-IDF: 단어 중요도(가중치)로 벡터화

 

오토인코더: 비지도학습, 사전학습, 차원축소, 노이즈 제거, 과적합/학습어려움/복원품질 이슈

 

포스 태깅(Pos Tagging): 품사 태깅, Pos=Part of Speech

 

Transformer: RNN/LSTM 극복 self-attention 병렬 연산

 

역전파: 편미분, 학습률 증가

 

SOM(Self-Organizing Map): 비지도 차원 축소 군집화 기법

 

AdaBoost: 가중치 조정

GBM: 경사하강법

XGBoost: 병렬처리

LightGBM: 리프 단위 분할

CatBoost: 범주형 데이터

 

선험적규칙(Apriori): 연관분석

콜모고로프-스미르노트: 분포(정규성) 검정(두 집단 분포), 집단 사이 최대 거리, (경험적&)누적분포함수

윌콘슨 부호 순위: 일변량, 전후 차이, 순위합:이변량

윌콕슨순위합: 이변량, 비모수 검정 방법

맨-휘트니: 두 집단 차이 비교

콜모고로프-스미르노프(K-S): 

 


[4과목]

1종 오류: FP(귀무가설 참, 기각), 2종 오류: FN(귀무가설 거짓, 기각 안 함)

 

재현율=민감도: 실제P→예측P, 특이도: 실제N→예측N, 정밀도: 예측P→실제P

 

MSE(Mean Squared Error), MPE(Mean Percentage Error), MAE(Mean Absolute Error) RMSE(Root MSE)

회귀모델 평가지표에서 MAPE만 yi로 나눔

 

비모수 통계: 중앙값 사용(not평균값), 분포 가정 없음, 작은 샘플 크기, 순위(rank) 데이터, 부호 검정 등



ROC 곡선: (FPR, TPR), AUC↑성능↑, 이상적: x=0, y=1 

ROC: X축=1-특이도(1-TN/TN+FP), Y축=민감도(TP/TP+FN)

AUC: 1에 가까울 수록 good, 랜덤 데이터와 정량적 비교 가능, X:거짓양성비율(FPR)-Y:참양성비율(TPR)=recall·민감도

 

실루엣 계수: 군집 품질 평가 지표

 

일반화 선형 모델(GLM): 최대우도추정법(MLE) 사용

 

F-통계량: p-value < 유의수준(α)이면 귀무가설 기각

유의수준(α): 1종오류확률, β: 2종오류, 위험도=α+β

 

정규성 검정: Q-Q Plot, p-value, 샤피로-윌크, 콜모고로프-스미르노프, 안데르센-달링, 자크-베라, 뢰머-반 미셀

 

정준연결(Canonical link): 로그함수-포아송 분포

 

과적합 방지: 드롭아웃(뉴런 비활성화), 규제화, 조기종료 / 매개변수: 과적합 위험 증가

 

하이퍼 파라미터 학습 중에 변화 가능(예: adaptive learning rate)

 

확률적 경사하강법: 편미분(전미분X), 모멘텀: 지역최소점X 글로벌최소점O, Adam(Adaptive Moment Estimation)

 

배깅: 투표-랜덤포레스트, 과적합 방지, 부트스트랩 샘플(중복 허용)-예측 결합 

부스팅: 가중치-AdaBoost,GBM, 과적합 주의, 이전 모델 오류 개선

스태킹: 메타모델, 여러 모델 결합, 복잡도 ↑계산량↑

보팅: 여러 모델 다수결

 

관심범주 확률 추정값 p ≥ c에서 c=1:민감도1특이도0 , c=0:민감도0특이도1 (c값≒민감도)

 

기하평균 G=nx1​×x2​×...×xn / F1-score는 조화평균​​

 

분석 순서: 변수 선택 → 상관관계 분석 → 데이터 분할

 

앙상블 모델 독립적으로 최적화: 입력변수 다양화, 서로 다른 알고리즘 사용, 매개변수 다양화

 

파라미터 최적화; 경사하강법(SGD), 모멘텀, AdaGrad, Adam, RMSProp, AdaDelta, Nadam / 하이퍼: 베이지안

 

단계구분도: 지역 데이터

격자 카토그램: 공간 왜곡

픽토그램: 직관적

파레토그램=막대+ 선

스토리텔링형: 주제연결성, 완전성

평행좌표그래프: 여러 차원의 데이터

스몰멀티플즈: 여러 그래프

 

관계 시각화: 산점도, 버블차트, 히스토그램(연속형O, 명목형X)

비교 시각화: 플로팅바차트, 스타차트, 다차원척도법, 평행좌표그래프, 막대그래프, 레어더차

시간 시각화: 영역차트, 막대그래프, 꺾은선/선그래프, 막대그래프

 

명목형: 막대그래프, 파레토그램, 히스토그

 

인포그래픽: 많은 정보X, 부분 전달 시 오해 가능, 데이터 패턴 탐색, 오래 기억

 

스토리텔링 과정: 사용자별 데이터셋 및 정보 정의 → 사용자별 사용 시나리오 작성 → 스토리보드 기획