분류 전체보기 57

[빅데이터분석기사 필기] 2회 기출 문제 정리

08. 상향식접근법: 프로세스 분류 → 프로세스 흐름 분석 → 분석요건 식별 → 분석요건 정의22. 래퍼기법의 래퍼: 변수들을 wrapping해서 변수 set을  조합하는 것25. SMOTE: Synthetic minority Over-sampling Technique30. 평행좌표그래프: 여러 차원의 데이터 / 스몰멀티플즈: 여러 그래프37. 점추정 방법: 적률법, 평균제곱오차, 최대가능도추정법40. 유의수준(α): 1종오류확률, β: 2종오류, 위험도=α+β 47. k-fold: 훈련데이터: 데이터 충분하지 않을 때 용이48. 다차원척도법: 데이터를 다차원공간에 나타내 유사성, 차이 시각적으로58. 합성곱신경망(CNN)에서 특징맵(피처맵) 크기 = (input - filter + 2*padding) ..

[빅데이터분석기사 필기] 3회 기출 문제 정리

04. Tajo: 하둡 기반 ETL과 Low-Latency, Long Term Query, AD Hoc Query10. 데이터분석 마스터플랜: 분석대상 수행과제 도출 → 우선순위 평가 → 단기적 세부 이행 계획 → 중장기 분석 로드맵 수립22. PCA: 상관행렬, 공분산행렬25. 변수 변환 기법 중 스케일링: 최소-최대 정규화, 표준화, 최대-절대값 정규화(-1~+1)32. 공분산분석 ⊃ 일원(독립변수1개), 이원(독립변수2개)37. 중심극한정리: 표본의 크기가 커질수록 정규 분포39. 모평뷴/모분산 통계량 4가지 준거: 불편성, 일치성, 유효성, 충분성. 47. 시그모이도(0~1) 하이퍼볼릭탄젠트(-1~1)49. SVM: 고차원에서의 특징추출이 어려운 경우 차원의 저주 회피50. SVM 커널: 선형 커..

[빅데이터분석기사 필기] 4회 기출 문제 정리

02. PB-EB-ZB-YB04. 스파크: 인메모리05. API GW(게이트웨이): 시스템의 전방에 위치, 클라이언트로부터 다양한 서비스를 처리, 내부 시스템으로 전달 미들웨어11. 빅데이터 분석 기획 절차: 범위 설정 → 프로젝트 정의 → 수행계획 수립 → 위험계획 수립15. 개인정보차등보호: 개인정보에 노이즈 추가해서 개인정보보호와 데이터분석 모두 진행하는 방법19. HDFS: Apache Hadoop, 마스터-슬레이브(노드), 추가O 수정X23. Min-Max(정규화): 0~1 25. 결정계수(R^2)=상관계수(r)^226. 변동률: 기하평균 / 변동계수:분산(표준편차, 평균)28. 꼬리-왜도(왼쪽꼬리 음수, 오른쪽꼬리 양수), 평균쪽으로 밀집30. 패널 데이터: 시간에 따라(같은 사람에 대해 1,..

[빅데이터분석기사 필기] 5회 기출 문제 정리

02. 데이터 엔지니어: 마이그레이션, 모니터링 / 아키텍트: 구조, 설계 관리 / 개발자: 개발 / 기획자: 요구사항 정의, 기획06. 전이 학습: 이미 학습된 모델 반영 재학습 효율up / 강화 학습:  보상 최대화, 시행착오 통해 최적 찾기09. WBS: Work Breakdown Structure13. 스캠퍼(SCAMPER): 브레인스토밍 기법21. 레버리지: 이상치 측정, 0~126. 더미 코딩: 원-핫 인코딩에서 하나의 범주 제거(차원 감소, 다중공선성 완화)27. 클래스 불균형 방안: 임계값 이동, 비용 함수 민감 학습, 오버샘플링/언더샘플링29. Cov(X,Y)=0이면 독립이 아니라 선형 관계가 없는 것, 공분산: 선형관31. 피어슨 상관계수 |r| >= 0/8~0.9 변수 제거 고려36...

[빅데이터분석기사 필기] 6회 기출 문제 정리

06. 데이터 거버넌스: 원칙, 조직, 프로세스08. DB to DB: DW, DM / FTP: 대량(로그,백업) / OpenAPI: 외부 서비스 / HTTP: 웹 15. 데이터 준비 단계: 수집, 탐색, 전처리, 정제, 변환, 통합18. 평활화: 노이즈 제거, 추세 파악, 예측 모델 개선 / 가우시안 필터, 이동평균, 로컬 회귀19. 분산파일시스템: 네크워트를 통해 호스트에 있는 데이터 접근22. 데이터 준비 과정: 수집 → 정제 → 변환 → 전처리 → 저장 및 활용 (CCTPS)23. 다중대치법: 여러 예측값 생성 후 선택25. 데이터 이상값 발생 원인: 입력오류, 측정오류, 처리오류, 표본오류(크기/편향) / 보고오류 ≠ 이상값26. 레버리지: 회귀진단 이상값, 영향값 탐색 / AIC(Akaike ..

[빅데이터분석기사 필기] 7회 기출 문제 정리

07. HDFS: 네임노드가 망가지면 정상적인 작동 못함, 범용 하드웨어 사용(확장성)-수평적 확장11. 분석기획 우선순위 고려요소: 중요도, 분석가능성, ROI(Return On Investment)12. CRISP-DM 절차: 업무 이해 → 데이터 이해 → 평가 → 전개13. 빅분단계: 기획 → 데이터 준비 → 데이터 분석 → 모델 평가 → 모델 적용 및 배포19. Nosql DB: MongoDB(doc), DynamoDB(key-val), Cassandra(col)22. 구분자: 쉼표, 세미콜론, 탭 등 데이터 나누는 특정 문자(기호);25. 일변량 이상값 검출방법: IQR(사분위수), 산포도, 3*표준편차26. 평균쪽으로 쏠림=평균 반대쪽으로 꼬리 생28. 분산 변수선택: 분산이 작은 데이터 제거..

[빅데이터분석기사 필기] 8회 기출 문제 정리

05. 데이터 분석 단계: 데이터 확인 및 추출, 데이터 모델링, 모델링 적용 및 운영방안06. 데이터 탐색 단계: 유의미한 변수 고르기09. 빅데이터 분석 절차: 분석 기획 → 데이터 준비 → 데이터 분석 → 평가 및 전개 → 시스템 구현12. 서열변수: 순서/간격 불균등, 등간변수: 간격 일정, 절대적인 0 없음, 비율변수: 간격 일정, 절대적인 0 존재13. 정규화: 일정한 범위(like 0~1), 표준화: 평균0 표준편차1, 범주화: 연속→범주, 일반화: 포괄적인 범주, 정형화: 비정형→정형16. 데이터 웨어하우스 특징: 주제 지향적, 통합성, 시계열적, 비휘발성, 분석 최적화, 대용량 처리, ETL 프로세스 활용17. 분산파일시스템: HDFS, CephFS, GlusterFS, MooseFS, ..

[SQLD] 2과목 SQL 기본 및 활용 - 관리구문

🚀 DML(Data Manipulation Language)- DDL에서 정의한 대로 데이터를 입력하고, 입력된 데이터를 수정, 삭제, 조회하는 명령어 1️⃣ INSERT- 테이블에 데이터를 입력하는 명령어INSERT INTO 테이블명 (칼럼명1, 칼럼명2 ...) VALUES (데이터1, 데이터2 ...);INSERT INTO 입사 VALUES ('개발', '250317', '250317', '신입');  2️⃣ UPDATE- 이미 저장된 데이터를 수정하고 싶을 때 사용하는 명령어- 수정하고 싶은 칼럼이 많다면 SET절에 ,(콤마)로 이어서 명시UPDATE 테이블명 SET 칼럼명 = 새로운 데이터 (WHERE 수정할 데이터에 대한 조건); UPDATE 입사 SET 구분 = '경력' WHERE 입사자사..

SQLD 2025.03.16

[SQLD] 2과목 SQL 기본 및 활용 - SQL 활용(2)

🚀 윈도우 함수(Window Function) 1️⃣ 순위함수(Ranking Function) - 순위 함수(Ranking Function) 는 특정 기준에 따라 순위를 계산하는 함수이다. 함수 이름설명예RANK동일 순위는 같은 순위값을 가진다.순위값은 앞 순위까지의 누적개수 +1이 된다.1, 2, 3, 4, 4, 4, 7, ...DENSE_RANK동일 순위는 같은 순위값을 가진다.순위값은 단순하게 앞순위 +1이다.1, 2, 2, 3, 3, 3, 4, ...ROW_NUMBER동일 순위라도 각각의 행이 고유의 순위값을 가진다.1, 2, 3, 4, 5, 6, 7, ...  ✅ 순위함수 예제 (RANK)SELECT 사원명, 부서명, 급여, RANK() OVER (PARTITION BY 부서명 OR..

SQLD 2025.03.15

[SQLD] 2과목 SQL 기본 및 활용 - SQL 활용(1)

🚀 서브쿼리(Subquery)1️⃣ Main Query와 Subquery-  서브쿼리(Subquery)는 SELECT 문 내에서 다른 SELECT 문을 중첩하여 사용하는 SQL 문법이다.- 서브쿼리는 메인 쿼리(Main Query)의 일부로 작동하며, 하나의 값 또는 여러 개의 값을 반환할 수 있다.- 보통 데이터를 필터링하거나 특정 조건을 만족하는 값을 찾을 때 사용된다. 📌 인라인 뷰(Inline View)- FROM 절에서 사용하는 서브쿼리를 말한다.- 일반적으로 임시적인 가상의 테이블을 생성하는 용도로 사용된다.- 쿼리 내에서만 존재하며, 직접 데이터를 저장하지 않는다. ✅ 인라인 뷰 예제SELECT A.DEPTNO, A.AVG_SALFROM (SELECT DEPTNO, AVG(SAL) AS ..

SQLD 2025.03.14