[1과목]
데이터 거버넌스: 원칙, 조직, 프로세스
데이터 엔지니어: 마이그레이션, 모니터링
데이터 아키텍트: 구조, 설계 관리
데이터 개발자: 개발
데이터 기획자: 요구사항 정의, 기획
빅데이터 분석 절차: 분석 기획 → 데이터 준비 → 데이터 분석 → 평가 및 전개 → 시스템 구현
빅데이터 분석 기획 절차: 범위 설정 → 프로젝트 정의 → 수행계획 수립 → 위험계획 수립
데이터분석 마스터플랜: 분석대상 수행과제 도출 → 우선순위 평가 → 단기적 세부 이행 계획 → 중장기 분석 로드맵 수립
데이터 준비 단계: 수집, 탐색, 전처리, 정제, 변환, 통합
데이터 준비 과정: 수집 → 정제 → 변환 → 전처리 → 저장 및 활용 (CCTPS)
상향식접근법: 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요건 정의
개인정보차등보호: 개인정보에 노이즈 추가해서 개인정보보호와 데이터분석 모두 진행하는 방법
DB to DB: DW, DM
FTP: 대량(로그,백업)
OpenAPI: 외부 서비스 / HTTP: 웹
서열변수: 순서/간격 불균등
등간변수: 간격 일정, 절대적인 0 없음
비율변수: 간격 일정, 절대적인 0 존재
정규화: 일정한 범위(like 0~1), Min-Max(정규화): 0~1
표준화: 평균0 표준편차1, 단위X, Z=(X−μ)/ σ, 평균을 빼고 표준편차로 나눔
범주화: 연속→범주, 일반화: 포괄적인 범주(메르세데스→자동차차)
정형화: 비정형→정형
평활화: 노이즈 제거, 추세 파악, 예측 모델 개선 / 우시안 필터, 이동평균, 로컬 회귀
데이터 웨어하우스 특징: 주제 지향적, 통합성, 시계열적, 비휘발성, 분석 최적화, 대용량 처리, ETL 프로세스 활용
분산파일시스템: 네크워트를 통해 호스트에 있는 데이터 접근
분산파일시스템: HDFS, CephFS, GlusterFS, MooseFS, GFS
HDFS: 네임노드가 망가지면 정상적인 작동 못함, 범용 하드웨어 사용(확장성)-수평적 확장
HDFS: Apache Hadoop, 마스터-슬레이브(노드), 추가O 수정X
Tajo: 하둡 기반 ETL과 Low-Latency, Long Term Query, AD Hoc Query
스파크: 인메모리
API GW(게이트웨이): 시스템의 전방에 위치, 클라이언트로부터 다양한 서비스를 처리, 내부 시스템으로 전달 미들웨어
Nosql DB: MongoDB(doc), DynamoDB(key-val), Cassandra(col)
key-value 데이터 베이스: 단순, 고속, 수평 확장, 모든 유형의 데이터, 키와 값
자가회귀 결측값 대체의 영향: 상관성 증가, 분산 감소
분석기획 우선순위 고려요소: 중요도, 분석가능성, ROI(Return On Investment)
CRISP-DM 절차: 업무 이해 → 데이터 이해 → 평가 → 전개
전이 학습: 이미 학습된 모델 반영 재학습 효율up
강화 학습: 보상 최대화, 시행착오 통해 최적 찾기
WBS: Work Breakdown Structure
스캠퍼(SCAMPER): 브레인스토밍 기법
PB(페타)-EB(엑사)-Z(제타)B-Y(요타)B: PEZY
[2과목]
기하분포: 처음 성공
초기하분포: 성공 개수, 각 시행 독립X(성공횟수 고정), 성공확률 일정하지 않음(비복원추출)
t분포: 평균, 연속확률 / 카이제곱: 분산, 독립성, 적합도, 연속확률
다중대치법: 여러 예측값 생성 후 선택
파생변수: 시점/교호작용/특정 조건으로 생성 가능, 교호작용: 2개 이상의 독립변수가 함께 작용하면 합 이상의 영향
구분자: 쉼표, 세미콜론, 탭 등 데이터 나누는 특정 문자(기호);
데이터 이상값 발생 원인: 입력오류, 측정오류, 처리오류, 표본오류(크기/편향) / 보고오류 ≠ 이상값
일변량 이상값 검출방법: IQR(사분위수), 산포도, 3*표준편차
레버리지: 회귀진단 이상값, 영향값 탐색, 이상치 측정(0~1)
AIC(Akaike Information Criterion): 적합도
회귀모수 개수: 회귀 분석에서 모델이 학습해야하는 계수 (y=β0+β1x1+β2x2+⋯+βkxk+에서 β개수) / 범주-1x독립변수+절편
자기회귀: 이전 값 / 이동평균: 과거 오차(랜덤 노이즈) / 자기회귀이동평균: 둘 다 / 자기회귀누적이동평균-추세 제거(차분)
Box-Cox 변환: 0/음수 데이터X(양수로 변환 후 적용)
피어슨 상관계수: 비율/등간, |r| >= 0/8~0.9 변수 제거 고려
스피어만 상관계수: 서열
평상관분석: 다른 변수 영향 제외하고 두 변수 간의 순수한 상관관계, 카이제곱: 독립성(관련성), 적합도(기대값일치)
정규분포 왜도=0, 첨도=3
꼬리쪽으로 평균(이상치 끌어당김)
왜도 꼬리=부호 (오른쪽 꼬리 +, 왼쪽 꼬리 -)(왼쪽꼬리 음수, 오른쪽꼬리 양수)
표본분산: 불편추정량을 위해 무조건 n-1로 나눔
불편추정량: 표본 작아서 분산도 작아지는 것 보정, bias=0
편향/일치치추정량:n으로 나눔
잔차: 선형성, 정규성(평균 0), 등분산성(분산 같음), 독립성(무작위분포) / *잔차 자유도 = n - (독립변수개수 + 1)
모평뷴/모분산 통계량 4가지 준거: 불편성, 일치성, 유효성, 충분성
분산 변수선택: 분산이 작은 데이터 제거
Cov(X,Y)=0이면 독립이 아니라 선형 관계가 없는 것, 공분산: 선형관계
변동률: 기하평균 / 변동계수:분산(표준편차, 평균)
최빈값: 범주형,특정값 / 중앙값: 이상치 많음 / 평균: 연속형,정규분포
모자이크 플롯: 범주형x범주형, 면적=비율/빈도
더미 코딩: 원-핫 인코딩에서 하나의 범주 제거(차원 감소, 다중공선성 완화)
클래스 불균형 방안: 임계값 이동, 비용 함수 민감 학습, 오버샘플링/언더샘플링
샘플링 기법: Metropolis-Hastings Algorithm, Pefect Sampling, Rejection Sampling / 파라미터 최적화: EM Algorithm
표본 N이 커지면 표본평균의 분산↓ 표준오차↓
중심극한정리: 표본평균 분포, 표본 크기 n이 클수록 정규분포 (CLT: Central Limit Theorem)
귀무가설: 알고 있는 사실, 대립가설: 증명하고 싶은 가설
서술적 분석: 무슨 일 what / 진단 분석: 왜 그런 일 why / 규범 분석: 무엇을 해야 할지 how
로지스틱 회귀: 정규성 가정 X(범주형, 확률 예측)
패널 데이터: 시간에 따라(같은 사람에 대해 1,2,3년 등 여러 해)
네트워크 중심성: 매개중심성, 근접중심성, 연결중심성(차수중심성), 고유벡터중심 / 네트워크에서 노드 중요도 측정 지표
래퍼기법의 래퍼: 변수들을 wrapping해서 변수 set을 조합하는 것
점추정 방법: 적률법, 평균제곱오차, 최대가능도추정법
SMOTE: Synthetic minority Over-sampling Technique
[3과목]
배치(Batch): 속도/정확도(학습성능) - 배치↑: 학습 안정적, 전체 학습 속도↑, 업데이트 횟수/속도↓
좋은 모델은 편향↓ 분산↓
분산팽창계수(VIF: Variance Inflation Factor) = 1 / (1 - R^2)
양측검정(α-Z): 10%-1.645, 5%-19.6, 1%-2.576
단측검정: 10%-1.282, 5%-1.645, 1%-2.326
다중회귀분석: P > |t| <= 0.05 유의미(유의수준5%), 결정계수 R^2↑ 유의미 but 독립변수↑R^2↑으로 조정된 결정계수 필요
결정계수(R^2)=상관계수(r)^2
결정계수(R^2): 0과 1사이, 1에 가까울 수록 좋음(1쪽은 과적합 주의)
회귀분석 모델 평가: 회귀계수검정 → 독립변수 검정 → 회귀모델 유의성 검정 (개별 → 다중공선성 →평가)
과적합 방지: 입력 노드↓(복잡도↓), 가중치 제한, Epoch↓(조기 종료), 은닉층↓ / epoch:전체학습횟수, iter: 가중치업데이트횟수
DBSCAN(Density-Based Spatial of Applications with Noise), Mixture Model: 노이즈처리X중첩O계산량↑
PCA: 특이값 분해(SVD: Singular Value Decomposition) 상관행렬, 공분산행렬
PCA 분석표: Cumulative Proportion 중요, 80%이상의 분산을 설명하는 주성분 기준 등
NMF(비음수행렬분해=텍스트,이미지분석)
정상성=일정/ 종단(longitudinal/세로): 시간을 따라 변화 추적 / 횡단(cross-sectional): 특정 시점 여러개체
라쏘(L1): 가중치0, 릿지(L2): 가중치 작게 not 0
수식) 라쏘: 절대값 / 릿지: 제곱 / 엘라스틱: 라쏘+릿지 / 로지스틱: 시그모이드 / 단순: 다항식(일차식)
시그모이도(0~1) 하이퍼볼릭탄젠트(-1~1)
다중공선성: 독립변수 간의 상관성, 클수록 모델에 악영향 (독립변수들은 서로 독립적이어야 하는데)
선형회귀:최소제곱법, 오차항 가정
선형회귀분석 오차항 특성: 평균 0, 등분산성, 독립성, 정규성
로지스틱회귀: 최대우도추정(발생할 가능성이 높은 likelihood 파라미터), 확률 예측 0~1
의사결정나무: 동질성↑ 이질성↓, 교호작용 반영, 정규성 가정 X
의사결정나무 정지규칙: 임계값 이하, 최대 깊이 제한, 더 이상 나눌 수 없음
의사결정나무:분리기준(지니,에트로피,정보이득,분산감소) / 알파컷: 임계값(알파) 이상 요소만 선택
의사결정트리 가지치기 수행-일반화
인공신경망 출력값 = (은닉 노드 값x가중치) + 편향
합성곱신경망(CNN)에서 특징맵(피처맵) 크기 = (input - filter + 2*padding) / stride +1
RNN 장기의존성, 단측(일방향), 양측(두방향)
GRU: (Reset,Update), 빠른속도
LSTM: (Forget,Input,Output)
SVM: 마진 최대화, 분류/회귀/이상탐지, 커널함수-비선형분류, 최적화 해야겠지 당연히
SVM: 고차원에서의 특징추출이 어려운 경우 차원의 저주 회피
SVM 커널: 선형 커널, 다항 커널, RBF(가우시안) 커널, 시그모이드 커널, 하이퍼볼릭탄젠트 커널, 라플라시안 커널
k-fold: 훈련데이터: 데이터 충분하지 않을 때 용이
유클리드: 루트
맨해튼: 절대값, 수평/수직 거리 합
체비쇼프: 최대값
민코우스키: p값
마할라노비스: 벡터, 공분산 행렬 S
위험도: 위험도 단순 비교, 승산비: 승 구하고(yes/not), 승산 비교
설명률: Proportion of Variance - 각 요인이 설명하는 변수의 분산 비율
향상도 L(A→B) = P(A∩B) / P(A) x P(B), 지지도 = P(A∩B), 신뢰도 = P(A∩B) / P(A)
오즈(Odds): 사건이 일어날 확률과 일어나지 않을 확률의 비율 / log연산 통해 0~1 logit 획득
다변량 분산 분석(MANOVA): 1이상(N)독립변수-M종속변수
ANOVA: 1독립1종속
ANOVA: F-검정: F = MSR/MSE, 평균=제곱합/자유도
카이제곱값 = Σ (Oi - Ei)^2 / Ei
모수검정:정규분포-z, t, ANOVA, 회귀 / 비모수:분포가정X-카이제곱(범주), 윌콕슨(두집단), 크루스칼왈리스(3이상집단)
공분산: 종속-연속 / t검정: 독립 2개-범주, 종속-연속 / 카이제곱: 독립 2개-범주, 종속-범주
공분산분석 ⊃ 일원(독립변수1개), 이원(독립변수2개)
차원축소 pros: 특징 추출, 노이즈 제거, 해석 용이, 차원의 저주 해결, 계산 비용 감소, 성능 향상(과적합↓)
요인분석: 고유값과 스크리도표 활용으로 적절한 수의 요인 산출 가능
시계열 요일: 트렌드(추세), 계절성, 주기성, 불규칙성, 변동성
추세 요인: 중/장기적, 빈번한 발생 빈도 없는 패턴
나이브 베이즈: 독립성, 빠름, 가벼움, 해석 쉬움, 사전/사후 확률로 우도 계산, 노이즈/결측값 okay
Seq2Seq인코더: 고정된 길이의 벡터(Context Vector)로 변환 (텍스트→숫자: 01벡터)
Word2Vec&Word Embedding: 단어→벡터 / TF-IDF: 단어 중요도(가중치)로 벡터화
오토인코더: 비지도학습, 사전학습, 차원축소, 노이즈 제거, 과적합/학습어려움/복원품질 이슈
포스 태깅(Pos Tagging): 품사 태깅, Pos=Part of Speech
Transformer: RNN/LSTM 극복 self-attention 병렬 연산
역전파: 편미분, 학습률 증가
SOM(Self-Organizing Map): 비지도 차원 축소 군집화 기법
AdaBoost: 가중치 조정
GBM: 경사하강법
XGBoost: 병렬처리
LightGBM: 리프 단위 분할
CatBoost: 범주형 데이터
선험적규칙(Apriori): 연관분석
콜모고로프-스미르노트: 분포(정규성) 검정(두 집단 분포), 집단 사이 최대 거리, (경험적&)누적분포함수
윌콘슨 부호 순위: 일변량, 전후 차이, 순위합:이변량
윌콕슨순위합: 이변량, 비모수 검정 방법
맨-휘트니: 두 집단 차이 비교
콜모고로프-스미르노프(K-S):
[4과목]
1종 오류: FP(귀무가설 참, 기각), 2종 오류: FN(귀무가설 거짓, 기각 안 함)
재현율=민감도: 실제P→예측P, 특이도: 실제N→예측N, 정밀도: 예측P→실제P
MSE(Mean Squared Error), MPE(Mean Percentage Error), MAE(Mean Absolute Error) RMSE(Root MSE)
회귀모델 평가지표에서 MAPE만 yi로 나눔
비모수 통계: 중앙값 사용(not평균값), 분포 가정 없음, 작은 샘플 크기, 순위(rank) 데이터, 부호 검정 등
ROC 곡선: (FPR, TPR), AUC↑성능↑, 이상적: x=0, y=1
ROC: X축=1-특이도(1-TN/TN+FP), Y축=민감도(TP/TP+FN)
AUC: 1에 가까울 수록 good, 랜덤 데이터와 정량적 비교 가능, X:거짓양성비율(FPR)-Y:참양성비율(TPR)=recall·민감도
실루엣 계수: 군집 품질 평가 지표
일반화 선형 모델(GLM): 최대우도추정법(MLE) 사용
F-통계량: p-value < 유의수준(α)이면 귀무가설 기각
유의수준(α): 1종오류확률, β: 2종오류, 위험도=α+β
정규성 검정: Q-Q Plot, p-value, 샤피로-윌크, 콜모고로프-스미르노프, 안데르센-달링, 자크-베라, 뢰머-반 미셀
정준연결(Canonical link): 로그함수-포아송 분포
과적합 방지: 드롭아웃(뉴런 비활성화), 규제화, 조기종료 / 매개변수: 과적합 위험 증가
하이퍼 파라미터 학습 중에 변화 가능(예: adaptive learning rate)
확률적 경사하강법: 편미분(전미분X), 모멘텀: 지역최소점X 글로벌최소점O, Adam(Adaptive Moment Estimation)
배깅: 투표-랜덤포레스트, 과적합 방지, 부트스트랩 샘플(중복 허용)-예측 결합
부스팅: 가중치-AdaBoost,GBM, 과적합 주의, 이전 모델 오류 개선
스태킹: 메타모델, 여러 모델 결합, 복잡도 ↑계산량↑
보팅: 여러 모델 다수결
관심범주 확률 추정값 p ≥ c에서 c=1:민감도1특이도0 , c=0:민감도0특이도1 (c값≒민감도)
기하평균 G=nx1×x2×...×xn / F1-score는 조화평균
분석 순서: 변수 선택 → 상관관계 분석 → 데이터 분할
앙상블 모델 독립적으로 최적화: 입력변수 다양화, 서로 다른 알고리즘 사용, 매개변수 다양화
파라미터 최적화; 경사하강법(SGD), 모멘텀, AdaGrad, Adam, RMSProp, AdaDelta, Nadam / 하이퍼: 베이지안
단계구분도: 지역 데이터
격자 카토그램: 공간 왜곡
픽토그램: 직관적
파레토그램=막대+ 선
스토리텔링형: 주제연결성, 완전성
평행좌표그래프: 여러 차원의 데이터
스몰멀티플즈: 여러 그래프
관계 시각화: 산점도, 버블차트, 히스토그램(연속형O, 명목형X)
비교 시각화: 플로팅바차트, 스타차트, 다차원척도법, 평행좌표그래프, 막대그래프, 레어더차
시간 시각화: 영역차트, 막대그래프, 꺾은선/선그래프, 막대그래프
명목형: 막대그래프, 파레토그램, 히스토그
인포그래픽: 많은 정보X, 부분 전달 시 오해 가능, 데이터 패턴 탐색, 오래 기억
스토리텔링 과정: 사용자별 데이터셋 및 정보 정의 → 사용자별 사용 시나리오 작성 → 스토리보드 기획
'빅데이터분석기사' 카테고리의 다른 글
데이터 차원축소 종류: PCA(주성분 분석), FA(요인분석), t-SNE(t-분산 확률적 이웃 임베딩), MDS(다차원척도법) (0) | 2025.04.01 |
---|---|
딥러닝(Deep Learning)의 종류 (0) | 2025.04.01 |
[빅데이터분석기사 필기] 2회 기출 문제 정리 (0) | 2025.03.25 |
[빅데이터분석기사 필기] 3회 기출 문제 정리 (0) | 2025.03.22 |
[빅데이터분석기사 필기] 4회 기출 문제 정리 (0) | 2025.03.21 |