빅데이터분석기사 47

회귀모델의 진단: 영향값과 이상값 진단방법

🚀 모델 진단(Model Diagnostic)- 선형성, 독립성, 정규성, 등분산성 진단- 다중회귀분석에서는 다중공선성도 확인✅️ 모델 진단구분설명독립변수와 종속변수 간의 선형성- 예측하고자 하는 독립변수 X와 종속변수 Y간에 선형성을 만족하는 특성을 의미- 선형회귀분석에서 중요한 기본 가정(비선형회귀분석에서는 해당하지 않음)오차의 독립성- 예측의 오차값들은 서로 독립적이라는 가정, 예측값의 변화에 따라 오차항이 특정한 패턴을 가져서는 안 됨- 일반적으로 더빈-왓슨(Durbin-Watson) 통계량을 이용하여 독립성을 검정오차의 정규성오차의 분포가 정규분포를 만족하는지 여부샤피로-윌크 검정(Shapiro-Wilk Test)- 오차항이 정규분포를 추종하는지  알아보는 검정으로, 회귀분석에서 모든 독립변수..

연관분석 측정지표: 지지도(Support), 신뢰도(Confidence), 향상도(Lift)

🚀 연관분석(Association Analysis)- 종속변수가 미존재하는 비지도학습의 한 종류, 즈로 거래 구매항복에 존재하는 품목들 간의 연관성 규칙 추론에 사용 ✅️ 연관분석 장점 및 단점구분주요 내용설명장점결과 이해도 높음조건 반응으로 표현되는 연관분석 결과 이해도가 높음종속변수가 없어 유용분석 방향이나 목적이 특별히 없는 경우 유용계산 용이계산이 간단함(지지도, 신뢰도, 향상도)단점연산량 많음계산하는 연산 데이터양이 많음분석 지표 명확화 필요너무 상세한 세분화된 품목을 가지고 규칙을 찾으면 의미 없는 분석(적절한 품목 세분화 필요)충분한 데이터 필요거래량이 적은 품목은 거래수가 적어 규칙 발견 시 제외 필요  ✅️ 연관분석을 위한 3가지 측정지표측정기준수식설명지지도(Support)P(X∩Y)-..

기울기 소멸 문제(Vanishing Gradient Problem) 및 해결 방법

🚀 기울기 소멸 문제- 기울기 소멸 문제: 역전파 알고리즘으로 가중치를 수정할 때, 은닉층으로 오차가  거의 전달되지 않는 문제- 인공신경망 활성화 함수의 출력값이 곱해지다 보면 가중치에 따른 결과값의 기울기가 0이 되어버림- 인공지능 2차 암흑기의 주요 원인 (1차: 퍼셉트론의 한계, 계산 자원의 부족) ✅️ 기울기 소멸 문제의 주요 발생 원인구분발생 원인시그모이드 함수의 사용- 시그모이드 함수는 0과 1사이의 값을 출력- 역전파 알고리즘을 수행하기 위해 결사하강법을 이용하여 은닉층의 출력값을 미분하게 되는데 표현값은 0~0.25 사이의 값으로 전달- 따라서 미분 계속 반복 시 0에 가까운 값 되어 가중치를 학습하지 못함- 하이퍼볼릭탄젠트(Tanh) 함수 또한 동일 현상 발생초기 파라미터(가중치) 정..

인공신경망 활성화 함수(Active Function) 종류

🚀 은닉층의 활성화 함수 종류- 입력된 데이터의 가중합을 출력신호로 변환하여, 은닉층의 출력값을 특정 범위의 실수값으로 정규화- 은닉층과 출력층 사이에서 각 출력값을 제한, 은닉층에서 사용되는 활성화 함수구분수식도식설명항등 함수(=선형 함수)(Identity Function)입력값을 그대로 출력하는 선형 함수. 주로 회귀 문제에서 사용됨계단 함수(Step function)임계값을 기준으로 출력을 0 또는 1로 결정. 신경망 초창기 모델에서 사용되었으나, 역전파 불가능 문제로 잘 사용되지 않음부호 함수(Sign Function) 입력의 부호에 따라 -1, 0, 1로 출력. 퍼셉트론에서 사용되었으나, 미분 불가능 문제로 잘 사용되지 않음시그모이드 함수(로지스틱 함수)(Sigmoid Function) 출력을..

데이터 차원축소 종류: PCA(주성분 분석), FA(요인분석), t-SNE(t-분산 확률적 이웃 임베딩), MDS(다차원척도법)

🚀 주성분분석(Principal Component Analysis, PCA)✅️ 차원축소의 목적- 여러 변수들을 소수의 주성분으로 추소하여 데이터를 쉽게 이해 및 관리- 주성분분석을 통해 차원을 축소하여 연산속도 개선- 회귀분석에서 다중공선성 최소화 등 ✅️ 주성분분석을 이해하기 위한 수학적 개념주요 개념설명공분산(Covariance)- 2개의 연속형 변수의 상관 정도(선형관계)를 나타내는 값- 원 데이터의 분산에 대한 정보 저장공분산행렬(Covariance Matrix)- 변수들 사이의 공분산을 행렬로 나타낸 값- 정방행렬(Square Matrix)- 대칭행렬(Symmetric Matrix): 전치(Transpose)를 시켰을 때 동일한 행렬- 데이터의 구조적 의미: 각 데이터의 변동이 얼마나 닮았나..

딥러닝(Deep Learning)의 종류

🚀 CNN(합성곱신경망, Convolutional Neural Network)- 각 레이어의 입출력 데이터의 형상 유지- 이미지의 공간 정보를 유지하면서 인접 이미지와의 특징을 효과적으로 인식- 복수의 필터(Filter = 커널)로 이미지의 특징 추출 및 학습- 추출한 이미지의 특징을 모으고 강화하는 풀링 레이어(Pooling Layer) 사용- 필터를 공유 파라미터로 사용하기 때문에, 일반 인공신경마오가 비교하여 학습 파라미터가 매우 적음 ✅️ 합성곱신경망(CNN)의 레이어 설명구분설명 컨볼루션 레이어(Convolution Layer)입력 데이터에 필터를 적용하여 특징(Feature)을 추출하는 레이어필터(Filter) 사용특징맵(Feature Map) 추출풀링 레이어(Pooling Layer)서브 ..

[빅데이터분석기사 필기] 2~8회 기출 정리

[1과목]데이터 거버넌스: 원칙, 조직, 프로세스 데이터 엔지니어: 마이그레이션, 모니터링데이터 아키텍트: 구조, 설계 관리데이터 개발자: 개발데이터 기획자: 요구사항 정의, 기획 빅데이터 분석 절차: 분석 기획 → 데이터 준비 → 데이터 분석 → 평가 및 전개 → 시스템 구현빅데이터 분석 기획 절차: 범위 설정 → 프로젝트 정의 → 수행계획 수립 → 위험계획 수립데이터분석 마스터플랜: 분석대상 수행과제 도출 → 우선순위 평가 → 단기적 세부 이행 계획 → 중장기 분석 로드맵 수립 데이터 준비 단계: 수집, 탐색, 전처리, 정제, 변환, 통합데이터 준비 과정: 수집 → 정제 → 변환 → 전처리 → 저장 및 활용 (CCTPS) 상향식접근법: 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요..

[빅데이터분석기사 필기] 2회 기출 문제 정리

08. 상향식접근법: 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요건 정의22. 래퍼기법의 래퍼: 변수들을 wrapping해서 변수 set을  조합하는 것25. SMOTE: Synthetic minority Over-sampling Technique30. 평행좌표그래프: 여러 차원의 데이터 / 스몰멀티플즈: 여러 그래프37. 점추정 방법: 적률법, 평균제곱오차, 최대가능도추정법40. 유의수준(α): 1종오류확률, β: 2종오류, 위험도=α+β 47. k-fold: 훈련데이터: 데이터 충분하지 않을 때 용이48. 다차원척도법: 데이터를 다차원공간에 나타내 유사성, 차이 시각적으로58. 합성곱신경망(CNN)에서 특징맵(피처맵) 크기 = (input - filter + 2*padding) ..

[빅데이터분석기사 필기] 3회 기출 문제 정리

04. Tajo: 하둡 기반 ETL과 Low-Latency, Long Term Query, AD Hoc Query10. 데이터분석 마스터플랜: 분석대상 수행과제 도출 → 우선순위 평가 → 단기적 세부 이행 계획 → 중장기 분석 로드맵 수립22. PCA: 상관행렬, 공분산행렬25. 변수 변환 기법 중 스케일링: 최소-최대 정규화, 표준화, 최대-절대값 정규화(-1~+1)32. 공분산분석 ⊃ 일원(독립변수1개), 이원(독립변수2개)37. 중심극한정리: 표본의 크기가 커질수록 정규 분포39. 모평뷴/모분산 통계량 4가지 준거: 불편성, 일치성, 유효성, 충분성. 47. 시그모이도(0~1) 하이퍼볼릭탄젠트(-1~1)49. SVM: 고차원에서의 특징추출이 어려운 경우 차원의 저주 회피50. SVM 커널: 선형 커..

[빅데이터분석기사 필기] 4회 기출 문제 정리

02. PB-EB-ZB-YB04. 스파크: 인메모리05. API GW(게이트웨이): 시스템의 전방에 위치, 클라이언트로부터 다양한 서비스를 처리, 내부 시스템으로 전달 미들웨어11. 빅데이터 분석 기획 절차: 범위 설정 → 프로젝트 정의 → 수행계획 수립 → 위험계획 수립15. 개인정보차등보호: 개인정보에 노이즈 추가해서 개인정보보호와 데이터분석 모두 진행하는 방법19. HDFS: Apache Hadoop, 마스터-슬레이브(노드), 추가O 수정X23. Min-Max(정규화): 0~1 25. 결정계수(R^2)=상관계수(r)^226. 변동률: 기하평균 / 변동계수:분산(표준편차, 평균)28. 꼬리-왜도(왼쪽꼬리 음수, 오른쪽꼬리 양수), 평균쪽으로 밀집30. 패널 데이터: 시간에 따라(같은 사람에 대해 1,..