분류 전체보기 57

회귀모델의 진단: 영향값과 이상값 진단방법

🚀 모델 진단(Model Diagnostic)- 선형성, 독립성, 정규성, 등분산성 진단- 다중회귀분석에서는 다중공선성도 확인✅️ 모델 진단구분설명독립변수와 종속변수 간의 선형성- 예측하고자 하는 독립변수 X와 종속변수 Y간에 선형성을 만족하는 특성을 의미- 선형회귀분석에서 중요한 기본 가정(비선형회귀분석에서는 해당하지 않음)오차의 독립성- 예측의 오차값들은 서로 독립적이라는 가정, 예측값의 변화에 따라 오차항이 특정한 패턴을 가져서는 안 됨- 일반적으로 더빈-왓슨(Durbin-Watson) 통계량을 이용하여 독립성을 검정오차의 정규성오차의 분포가 정규분포를 만족하는지 여부샤피로-윌크 검정(Shapiro-Wilk Test)- 오차항이 정규분포를 추종하는지  알아보는 검정으로, 회귀분석에서 모든 독립변수..

연관분석 측정지표: 지지도(Support), 신뢰도(Confidence), 향상도(Lift)

🚀 연관분석(Association Analysis)- 종속변수가 미존재하는 비지도학습의 한 종류, 즈로 거래 구매항복에 존재하는 품목들 간의 연관성 규칙 추론에 사용 ✅️ 연관분석 장점 및 단점구분주요 내용설명장점결과 이해도 높음조건 반응으로 표현되는 연관분석 결과 이해도가 높음종속변수가 없어 유용분석 방향이나 목적이 특별히 없는 경우 유용계산 용이계산이 간단함(지지도, 신뢰도, 향상도)단점연산량 많음계산하는 연산 데이터양이 많음분석 지표 명확화 필요너무 상세한 세분화된 품목을 가지고 규칙을 찾으면 의미 없는 분석(적절한 품목 세분화 필요)충분한 데이터 필요거래량이 적은 품목은 거래수가 적어 규칙 발견 시 제외 필요  ✅️ 연관분석을 위한 3가지 측정지표측정기준수식설명지지도(Support)P(X∩Y)-..

군집분석의 척도: 비유사도 척도, 유사도 척도

🚀 군집분석(Clustering Analysis)- 여러 개체(데이터) 중에서 유사한 속성을 지닌 대상을 몇 개의 집단으로 그룹화한 다음, 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대해 이해하고자 하는 탐색적 분석 방법- 장점: 탐색적인 기법, 다양한 형태 데이터에 적용 가능, 분석 방법에 적용 용이- 단점: 분석자에 의해 결과가 달라질 수 있음, 가중치 및 거리의 정의가 어려움, 초기 군집 수 K 결정이 어려움(비계층적 군집화) ✅️ 군집분석 다차원 변수의 유사도 및 유사도계수 기반 분류구분주요 내용설명비유사도(거리 기반)유클리드거리(Euclid Distance)- 다차원 분산형 차트에서 변수값 쌍의 관계 표현, 두 점의 직선거리, 기하학적 최단거리마할라노비스 거리(Mahalanobis)-..

카테고리 없음 2025.04.02

기울기 소멸 문제(Vanishing Gradient Problem) 및 해결 방법

🚀 기울기 소멸 문제- 기울기 소멸 문제: 역전파 알고리즘으로 가중치를 수정할 때, 은닉층으로 오차가  거의 전달되지 않는 문제- 인공신경망 활성화 함수의 출력값이 곱해지다 보면 가중치에 따른 결과값의 기울기가 0이 되어버림- 인공지능 2차 암흑기의 주요 원인 (1차: 퍼셉트론의 한계, 계산 자원의 부족) ✅️ 기울기 소멸 문제의 주요 발생 원인구분발생 원인시그모이드 함수의 사용- 시그모이드 함수는 0과 1사이의 값을 출력- 역전파 알고리즘을 수행하기 위해 결사하강법을 이용하여 은닉층의 출력값을 미분하게 되는데 표현값은 0~0.25 사이의 값으로 전달- 따라서 미분 계속 반복 시 0에 가까운 값 되어 가중치를 학습하지 못함- 하이퍼볼릭탄젠트(Tanh) 함수 또한 동일 현상 발생초기 파라미터(가중치) 정..

인공신경망 활성화 함수(Active Function) 종류

🚀 은닉층의 활성화 함수 종류- 입력된 데이터의 가중합을 출력신호로 변환하여, 은닉층의 출력값을 특정 범위의 실수값으로 정규화- 은닉층과 출력층 사이에서 각 출력값을 제한, 은닉층에서 사용되는 활성화 함수구분수식도식설명항등 함수(=선형 함수)(Identity Function)입력값을 그대로 출력하는 선형 함수. 주로 회귀 문제에서 사용됨계단 함수(Step function)임계값을 기준으로 출력을 0 또는 1로 결정. 신경망 초창기 모델에서 사용되었으나, 역전파 불가능 문제로 잘 사용되지 않음부호 함수(Sign Function) 입력의 부호에 따라 -1, 0, 1로 출력. 퍼셉트론에서 사용되었으나, 미분 불가능 문제로 잘 사용되지 않음시그모이드 함수(로지스틱 함수)(Sigmoid Function) 출력을..

데이터 차원축소 종류: PCA(주성분 분석), FA(요인분석), t-SNE(t-분산 확률적 이웃 임베딩), MDS(다차원척도법)

🚀 주성분분석(Principal Component Analysis, PCA)✅️ 차원축소의 목적- 여러 변수들을 소수의 주성분으로 추소하여 데이터를 쉽게 이해 및 관리- 주성분분석을 통해 차원을 축소하여 연산속도 개선- 회귀분석에서 다중공선성 최소화 등 ✅️ 주성분분석을 이해하기 위한 수학적 개념주요 개념설명공분산(Covariance)- 2개의 연속형 변수의 상관 정도(선형관계)를 나타내는 값- 원 데이터의 분산에 대한 정보 저장공분산행렬(Covariance Matrix)- 변수들 사이의 공분산을 행렬로 나타낸 값- 정방행렬(Square Matrix)- 대칭행렬(Symmetric Matrix): 전치(Transpose)를 시켰을 때 동일한 행렬- 데이터의 구조적 의미: 각 데이터의 변동이 얼마나 닮았나..

딥러닝(Deep Learning)의 종류

🚀 CNN(합성곱신경망, Convolutional Neural Network)- 각 레이어의 입출력 데이터의 형상 유지- 이미지의 공간 정보를 유지하면서 인접 이미지와의 특징을 효과적으로 인식- 복수의 필터(Filter = 커널)로 이미지의 특징 추출 및 학습- 추출한 이미지의 특징을 모으고 강화하는 풀링 레이어(Pooling Layer) 사용- 필터를 공유 파라미터로 사용하기 때문에, 일반 인공신경마오가 비교하여 학습 파라미터가 매우 적음 ✅️ 합성곱신경망(CNN)의 레이어 설명구분설명 컨볼루션 레이어(Convolution Layer)입력 데이터에 필터를 적용하여 특징(Feature)을 추출하는 레이어필터(Filter) 사용특징맵(Feature Map) 추출풀링 레이어(Pooling Layer)서브 ..

[SQLD] 39회 (복원)기출문제 오답노트

01. 다음 중 데이터베이스 논리 모델에 대한 설명으로 올바르지 않은 것은? ①  개념 데이터 모델은 사용자 관점에서 데이터 요구사항을 식별한다.② 논리 데이터 모델은 M:N 관계 해소, 식별자 확정, 정규화, 무결성 정의 등을 수행한다.③ 논리 모델은 데이터베이스 구축을 위해서만 사용되는 것이다.④ 데이터가 물리적으로 저장되는 방법을 정의하는 것이 물리적 모델이다.✅ 정답더보기③ 논리 모델은 데이터베이스 구축을 위해서만 사용되는 것이다.   05. 다음 보기 중 슈퍼/서브타입 데이터 모델의 변환타입에 대한 설명으로 옳은 것은?① One to One이란 개별로 생성되는 트랜잭션에 대해서는 개별 테이블로 구성하는 것으로 테이블의 수가 많아진다.② Plus Type은 하나의 테이블을 생성하는 것으로 조인(J..

SQLD 2025.03.31

[SQLD] 데이터 모델링의 이해 출제예상문제(20문항)

01. 다음 중 가장 추상화 수준이 높은 데이터베이스 모델링은 어느 것인가?① 개념적 모델링② 물리적 모델링③ 논리적 모델링④ 추상적 모델링 ✅ 정답더보기① 개념적 모델링데이터 모델링은 개념적 데이터 모델링 → 논리적 데이터 모델링 → 물리적 데이터 모델링 순으로 수행하며 단계가 진행될 수록 추상화 수준은 점점 낮아진다.모델링 단계설명개념적 데이터 모델링가장 먼저 수행하는 데이터 모델링으로 높은 추상화 수준에서 업무와 개념 중심으로 모델링을 수행논리적 데이터 모델링개념적 모델링을 기본으로 키, 속성, 관계 등을 정의하며 정규화를 통한 중복 저장의 최소화, 식별자의 확정 등을 수행물리적 데이터 모델링추상화 수준이 가장 낮은 단계로서 데이터베이스를 실제로 구축하고 성능, 보안, 저장 등 물리적인 수준에서 모..

SQLD 2025.03.28

[빅데이터분석기사 필기] 2~8회 기출 정리

[1과목]데이터 거버넌스: 원칙, 조직, 프로세스 데이터 엔지니어: 마이그레이션, 모니터링데이터 아키텍트: 구조, 설계 관리데이터 개발자: 개발데이터 기획자: 요구사항 정의, 기획 빅데이터 분석 절차: 분석 기획 → 데이터 준비 → 데이터 분석 → 평가 및 전개 → 시스템 구현빅데이터 분석 기획 절차: 범위 설정 → 프로젝트 정의 → 수행계획 수립 → 위험계획 수립데이터분석 마스터플랜: 분석대상 수행과제 도출 → 우선순위 평가 → 단기적 세부 이행 계획 → 중장기 분석 로드맵 수립 데이터 준비 단계: 수집, 탐색, 전처리, 정제, 변환, 통합데이터 준비 과정: 수집 → 정제 → 변환 → 전처리 → 저장 및 활용 (CCTPS) 상향식접근법: 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요..