분류 전체보기 57

[SQLD] 2과목 SQL 기본 및 활용 - SQL 기본

🚀 관계형 데이터베이스(Relation Database)1️⃣ 관계형 데이터베이스(Relation Databse)❶  관계형 데이터베이스의 등장- 1960년대 초반에는 파일 시스템 기반의 데이터 관리 방식이 사용되었지만, 데이터 중복과 일관성 문제로 인해 비효율적이었다.- 1970년대 E.F.Codd가 제안한 관계형 데이터 모델이 등장하면서, 데이터를 표 형식(테이블)으로 관리하는 방식이 널리 사용되기 시작했다.- 관계형 데이터베이스는 릴레이션(Relation)과 릴레이션의 조인 연산을 통해서 합집합, 교집합, 차집합 등을 만들 수 있다. ❷ 데이터베이스와 데이터베이스 관리 시스템의 차이점- 데이터베이스(DB, Database): 데이터를 체계적으로 저장하고 관리하는 공간- 데이터베이스 관리 시스템(D..

SQLD 2025.03.13

[SQLD] 1과목 데이터 모델링의 이해 - 데이터 모델과 SQL

🚀 정규화1️⃣ 정규화(Normalization)- 정규화는 데이터의 일관성, 최소한의 중복, 최대한의 데이터 유연성을 위한 방법이며 데이터를 분해하는 과정이다.- 정규화는 테이블 중복을 제거하고 데이터 모델의 독립성을 확보하기 위한 방법이다.- 정규화는 테이블을 분해해서 데이터 중복을 제거하기 때문에 모델의 유연성을 높인다.- 정규화를 수행하면 비즈니스에 변화가 발생하여도 데이터 모델의 변경을 최소화할 수 있다.- 정규화는 제1정규화부터 제5정규화까지 있지만, 실질적으로는 제3정규화까지만 수행한다.- 정규화된 모델은 테이블이 분해된다. 테이블이 분해되면 직원 테이블과 부서 테이블 간에 부서코드로 조인(Join)을 수행하여 하나의 합집합으로 만들 수도 있다.- 정규화를 수행하면 불필요한 데이터를 입력하..

SQLD 2025.03.12

[SQLD] 1과목 데이터 모델링의 이해 - 데이터 모델링(Data Modeling)

🚀 데이터 모델링의이해1️⃣ 데이터 모델링- 데이터 모델링은 데이터를 구조화하고 체계적으로 표현하는 과정- 데이터의 논리적, 물리적 구조를 명확히 정의- 중복 최소화 및 일관성 유지- 성능 최적화 및 확장성 확보 2️⃣ 데이터 모델링의 주요 특징특징설명추상화(Abstraction)현실 세계를 간략하게 표현단순화(Simplification)누구나 쉽게 이해할 수 있도록 표현명확성(Clarity)명확하게 의미가 해석되어야 하고 한 가지 의미를 가짐  3️⃣ 데이터 모델링 단계👉 데이터 모델링 단계데이터 모델링 단계설명개념적 모델링- 전사적 관점에서 기업의 데이터를 모델링- 추상화 수준이 가장 높은 수준의 모델링- 계층형 데이터 모델, 네트워크 모델, 관계형 모델에 관계없이 업무 측면에서 모델링- 엔터티(..

SQLD 2025.03.11

[빅데이터분석기사 필기] 실전모의고사1 오답노트

[틀린 문제]05. 다음 중 비정형데이터 수집에 사용되는 기술이 아닌 것은?① Chukwa② Sqoop③ Flume④ Scribe더보기② Sqoop스쿱은 대용량 데이터 전송 솔루션으로 정형 데이터 수집에 사용하는 기술이다. 15. 데이터 웨어하우스 환경에서 정의된 접근계층으로 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 하는 것으로 데이터 웨어하우스의 부분이며, 대개 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 하는 것은?① 크롤링② 데이터 마트③ 데이터 마이닝④ 텍스트 마이닝더보기② 데이터 마트데이터 마트(DM: Data Mart)는 데이터 웨어하우스(DW: Data Warehouse) 환경에서 정의된 접근 계층으로 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 한..

[빅데이터분석기사 필기] 분석결과 해석

데이터 시각화의 종류구분개념기법 예시분포 시각화구분에 따른 변화를 최대, 최소, 전체 분포 등으로 분류하고 관계 설명도넛 차트, 파이 차트, 트리맵시간 시각화시간의 흐름에 따른 변화를 통해 트렌드를 파악점 그래프, 막대 그래프비교 시각화데이터 간 차이점 및 유사성 관계 확인 가능평행 좌표 그래프, 히트 맵, 체크보드 페이스관게 시각화집단 간 상관관계를 확인해 다수치 변화 예측버블 차트, 산점도, 히스토그램공간 시각화지도 등을 통해 시점에 따른 경향이나 차이 확인도트맵, 등치선도, 카토그램 데이터 시각화의 과정단계설명예구조화원본 데이터를 정리하고 분석 목적에 맞게 가공하는 단계데이터 정제, 변수 선택, 그룹화시각화데이터를 그래프, 차트 등으로 변환하여 패턴을 파악하는 단계막대 그래프, 산점도, 히트맵시각표..

[빅데이터분석기사 필기] 분석 모형 개선

과대 적합 방지하기1. 데이터의 증강: 충분한 데이터셋 확보, 양이 적을 경우 변형해서 늘리기2. 모델의 복잡도 감소: 은닉층 수 감소, 수용력 낮추기3. 가중치 규제의 적용: 개별 가중치 값 제한을 통해 복잡도 낮추기 드롭아웃- 학습과정에서 신경망의 일부를 활용하지 않는 방법- 신경망 학습 시에만 활용하고 예측 시에는 활용하지 않음- 학습 시 인공신경망이 특정 뉴런이나 특정한 조합에 지나치게 의존적으로 되는 것을 방지- 서로 다른 신경망들을 앙상블하여 활용하는 것 같은 효과를 내어 과대 적합 방지 드롭아웃의 종류종류내용초기 드롭아웃- 학습의 과정에 있어 노드들을 p의 확률로서 학습 횟수마다 임으로 생략하고, 남은 노드들과 연결선만을 활용해 추론 및 학습을 수행- DNN 알고리즘에 활용시간적 드롭아웃- ..

[빅데이터분석기사 필기] 분석 모형 평가

지도학습 - 회귀모델의 평가지표SSE(Sum Squared Error)- 실제 값과 예측 값의 차이를 제곱하여 더한 값 MSE(Mean Squared Error)- 실제 값과 예측 값의 차이의 제곱에 대한 평균을 취한 값 RSME(Root Mean Squared Error)- MSE에 루트를 취한 값, 평균제곱근 오차 결정계수 R^2- 회귀모형이 실제 값에 대해서 얼마나 잘 적합하는지에 대한 비율 비지도학습 - 군집분석의 평가지표실루엣 계수 Dunn Index 오차행렬(혼돈행렬, Confusion Matrix)- 머신러닝 중 분류(Classification) 모델의 정확도를 2x2 행렬로 나타내는 방법- 알고리즘이 실제(actual) 값과 비교했을 때 얼마나 정확하게 값을 예측했는지는 보기 용이하게 행렬..

[빅데이터분석기사 필기] 분석 기법 적용

의사결정나무 알고리즘구분CHAIDCARTQUEST목표변수명목형, 순서형, 연속형명목형, 순서형, 연속형명목형예측변수명목형, 순서형, 연속형(사전그룹화)명목형, 순서형, 연속형명목형, 순서형, 연속형분리 기준카이제곱검정F검정지니 계수분산의 감소카이제곱검정F검정(Levene의 검정)분리 개수다지분리(multiway)이지분리(binary)이지분리(binary)가지치기알고리즘에 포함 X알고리즘에 포함 O알고리즘에 포함 O결손값의 대체 규칙알고리즘에 포함 X알고리즘에 포함 O알고리즘에 포함 O비용함수변수 선택에 직접적으로 사용 X변수 선택에 사용 O변수 선택에 직접적으로 사용 X비용함수에 의해 사전확률 조정

[빅데이터분석기사 필기] 분석 절차 수립

3과목: 빅데이터 모델링 - 분석모형 설계 - 분석절차 수립분석모형 선정, 분석모형 정의, 분석모형 구축, 절차 파라미터(Parameters) vs 하이퍼파라미터(Hyperparameters) 차이구분파라미터(Parameters)하이퍼파라미터(Hyperparameters)정의모델이 학습을 통해 자동으로 결정되는 값들 사용자가 설정하는 값들사용자가 설정하는 값들예시- 선형 회귀에서 기울기, 절편- 신경망에서 가중치와 편향- 학습률, 배치 크기, 트리 깊이, K값 등결정 시점학습 과정에서 모델이 자동으로 학습모델 학습 전에 사용자가 수동으로 설정조정 학습 후 모델의 파라미터는 변경 불가능 (예: 가중치 조정)모델 학습 전에 최적화를 통해 조정예시 설명선형 회귀에서 최적의 기울기와 절편을 데이터로부터 자동으로..

[빅데이터분석기사 필기] 추론통계 출제예상문제 오답노트

[틀린 문제] 02. 추정에 대한 설명으로 가장 올바른 것은?① 모수를 고정된 값인 상수라고 가정하여 처리방식에 따라 분류하는 방법이다.② 모집단에 대한 가설을 나름대로 세워 그 가설의 옳고 그름을 확률적으로 판정한다.③ 표본의 통계량을 이용하여 모집단의 모수의 근사값을 결정하는 것이다.④ 모집단에 대해 특정한 분포를 가정하지 않는 방법이며, 주로 이상값이 존재할 때 사용하는 방법이다.✅ 1번: 빈도론자 추정, 2번: 가설 검정, 4번: 비모수적 추론 06. 다음의 사례에 대한 모평균의 점추정량을 구할 때 빈칸에 가장 적절한 것은?대학생들의 한 달 평균 용돈을 알기 위하여 500명의 대학생을 단순무작위 추출하여 조사한 결과 표본평균 x바 = 50만원이었다. 따라서 모집단의 모수 모평균은 50만 원일 것이..