빅데이터분석기사

[빅데이터분석기사 필기] 7회 기출 문제 정리

Jia H 2025. 3. 18. 11:26

07. HDFS: 네임노드가 망가지면 정상적인 작동 못함, 범용 하드웨어 사용(확장성)-수평적 확장

11. 분석기획 우선순위 고려요소: 중요도, 분석가능성, ROI(Return On Investment)

12. CRISP-DM 절차: 업무 이해 → 데이터 이해 → 평가 → 전개

13. 빅분단계: 기획 데이터 준비 데이터 분석 모델 평가 모델 적용 및 배포

19. Nosql DB: MongoDB(doc), DynamoDB(key-val), Cassandra(col)

22. 구분자: 쉼표, 세미콜론, 탭 등 데이터 나누는 특정 문자(기호);

25. 일변량 이상값 검출방법: IQR(사분위수), 산포도, 3*표준편차

26. 평균쪽으로 쏠림=평균 반대쪽으로 꼬리 생

28. 분산 변수선택: 분산이 작은 데이터 제거

35. 최빈값: 범주형,특정값 / 중앙값: 이상치 많음 / 평균: 연속형,정규분포

39. 중심극한정리: 표본평균 분포

40. 귀무가설: 알고 있는 사실, 대립가설: 증명하고 싶은 가설

43. 수식) 라쏘: 절대값 / 릿지: 제곱 / 엘라스틱: 라쏘+릿지 / 로지스틱: 시그모이드 / 단순: 일차식 

44. 잔차: 선형성, 정규성(평균 0), 등분산성(분산 같음), 독립성(무작위분포) / *잔차 자유도 = n - (독립변수개수 + 1)

45. 의사결정나무 정지규칙: 임계값 이하, 최대 깊이 제한, 더 이상 나눌 수 없음

47. 역전파: 편미분, 학습률 증가

48. 향상도 L(A→B) = P(A∩B) / P(A) x P(B), 지지도 = P(A∩B), 신뢰도 = P(A∩B) / P(A)

53. Transformer: RNN/LSTM 극복 self-attention 병렬 연산

54. 선 인코더(입력→벡터), 후 디코더(단일벡터→출력시퀀스)

59. 모수검정:정규분포-z, t, ANOVA, 회귀 / 비모수:분포가정X-카이제곱(범주), 윌콕슨(두집단), 크루스칼왈리스(3이상집단)

60. SOM(Self-Organizing Map): 비지도 차원 축소 군집화 기법

65. ROC: X축=1-특이도(1-TN/TN+FP), Y축=민감도(TP/TP+FN)

70. 왜도 꼬리=부호 (오른쪽 꼬리 +, 왼쪽 꼬리 -)

77. 파레토그램=막대+선