06. 데이터 거버넌스: 원칙, 조직, 프로세스
08. DB to DB: DW, DM / FTP: 대량(로그,백업) / OpenAPI: 외부 서비스 / HTTP: 웹
15. 데이터 준비 단계: 수집, 탐색, 전처리, 정제, 변환, 통합
18. 평활화: 노이즈 제거, 추세 파악, 예측 모델 개선 / 가우시안 필터, 이동평균, 로컬 회귀
19. 분산파일시스템: 네크워트를 통해 호스트에 있는 데이터 접근
22. 데이터 준비 과정: 수집 → 정제 → 변환 → 전처리 → 저장 및 활용 (CCTPS)
23. 다중대치법: 여러 예측값 생성 후 선택
25. 데이터 이상값 발생 원인: 입력오류, 측정오류, 처리오류, 표본오류(크기/편향) / 보고오류 ≠ 이상값
26. 레버리지: 회귀진단 이상값, 영향값 탐색 / AIC(Akaike Information Criterion): 적합도
31. 회귀모수 개수: 회귀 분석에서 모델이 학습해야하는 계수 (y=β0+β1x1+β2x2+⋯+βkxk+에서 β개수) / 범주-1x독립변수+절편
38. 정규분포 왜도=0, 첨도=3
43. 분산팽창계수(VIF: Variance Inflation Factor) = 1 / (1 - R^2)
44. 다중회귀분석: P > |t| <= 0.05 유의미(유의수준5%), 결정계수 R^2↑ 유의미 but 독립변수↑R^2↑으로 조정된 결정계수 필요
47. 회귀분석 모델 평가: 회귀계수검정 → 독립변수 검정 → 회귀모델 유의성 검정 (개별 → 다중공선성 →평가)
50. 의사결정나무:분리기준(지니,에트로피,정보이득,분산감소) / 알파컷: 임계값(알파) 이상 요소만 선택
53. 과적합 방지: 입력 노드↓(복잡도↓), 가중치 제한, Epoch↓(조기 종료), 은닉층↓ / epoch:전체학습횟수, iter: 가중치업데이트횟수
55. DBSCAN(Density-Based Spatial of Applications with Noise), Mixture Model: 노이즈처리X중첩O계산량↑
57. PCA: 특이값 분해(SVD: Singular Value Decomposition), NMF(비음수행렬분해=텍스트,이미지분석)
59. 정상성=일정/ 종단(longitudinal/세로): 시간을 따라 변화 추적 / 횡단(cross-sectional): 특정 시점 여러개체
60. RNN 장기의존성, 단측(일방향), 양측(두방향) / GRU: (Reset,Update), 빠른속도 / LSTM: (Forget,Input,Output)
61. 관심범주 확률 추정값 p ≥ c에서 c=1:민감도1특이도0 , c=0:민감도0특이도1 (c값≒민감도)
62. 기하평균 G=nx1×x2×...×xn / F1-score는 조화평균
63. 분석 순서: 변수 선택 → 상관관계 분석 → 데이터 분할
66. 콜모고로프-스미르노프(K-S): 두 집단 분포, 집단 사이 최대 거리, (경험적&)누적분포함수
71. 파라미터 최적화; 경사하강법(SGD), 모멘텀, AdaGrad, Adam, RMSProp, AdaDelta, Nadam / 하이퍼: 베이지안
79. 스토리텔링형: 주제연결성, 완전성
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 4회 기출 문제 정리 (0) | 2025.03.21 |
---|---|
[빅데이터분석기사 필기] 5회 기출 문제 정리 (0) | 2025.03.20 |
[빅데이터분석기사 필기] 7회 기출 문제 정리 (0) | 2025.03.18 |
[빅데이터분석기사 필기] 8회 기출 문제 정리 (0) | 2025.03.17 |
[빅데이터분석기사 필기] 실전모의고사1 오답노트 (0) | 2025.03.10 |