빅데이터분석기사

[빅데이터분석기사 필기] 빅데이터 분석 기획

Jia H 2025. 2. 22. 10:33

🚀 분석 로드맵 설정

1️⃣ 데이터 분석 기획의 이해

✅️ 데이터분석의 3요소

- 데이터(Data)
- 분석 모델(Analytic Model)
- 분석가(Analyst)
 

✅️ 분석의 대상 및 방식에 따른 4가지 분석 기획 유형

 

✅️ 목표 시점에 따른 데이터 분석 기획 유형

  • 과제 중심적인 접근 방식
    • 당면한 과제를 빠르게 해결
  • 장기적인 마스터 플랜 방식
    • 지속적인 분석 내재화
  • 문제 해결을 위한 단기적인 방식과 분석과제 정의를 위한 마스터 플랜 방식을 융합하여 적용하는 것이 중요
  • 의미있는 분석을 위해서는 분석 기술, IT 및 프로그래밍, 분석 주제에 대한 도메인 전문성, 의사소통이 중요하고 분석대상 및 방식에 따른 다양한 분석 주제를 과제 단위 혹은 마스터 플랜 단위로 도출 해야 함

✅️ 분석 기획시 고려사항

  • 가용 데이터에 대한 고려
  • 적절한 활용방안과 유즈케이스 탐색
  • 장애요소들에 대한 사전계획 수립

✅️ 분석 데이터 종류

  • 정형데이터
    • 데이터베이스 정보와 같이 칼럼과 로우(row)의 형태가 정해져 있는 데이터
    • OND, DB 데이터
  • 반정형 데이터
    • 정해진 규칙(xml 스키마, json 문법) 맞게 다양한 형태로 생성할 수 있는 데이터
    • 로그데이터, 모바일데이터, 센싱데이터, 머신 데이터, XML, Json
  • 비정형 데이터
    • 형태가 없는 데이터
    • 영상, 음성, 문자, SNS, GPS

 

✅️ KDD 분석 방법론 분석 절차 설명

절차 설명
Selection
(데이터셋 선택)
데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터 선택 단계
목표 설정 및 목표 데이터 구성
Preprocessing
(전처리)
추출된 분석 대상 데이터셋에 포함된 잡음(Noise), 이상값(Outlier), 결측값(Missing Value)을 식별하고 필요 시 제거하거나 의미 있는 데이터로 재처리하는 단계
데이터 전처리 단계에서 추가로 요구되는 데이터셋이 필요할 경우 Selection 과정에서 재실행
Transformation
(데이터 변환)
효율적인 데이터 마이닝을 위한 데이터 변환 단계
변수 선정 및 차원축소(효율적인 데이터 마이닝 수행)
데이터 마이닝 프로세스 진행을 위해 학습용 데이터와 검증용 데이터로 데이터를 분리
Data Mining
(데이터 마이닝)
분석 목적에 따라 데이터 마이닝 기법 및 알고리즘을 선택하고 패턴 찾기, 데이터 분류, 예측을 수행하는 단계
필요에 따라 Preprocessing과 Transformation 과정을 추가로 실행해 최적의 결과를 산출
Interpretation/ 
Evaluation(평가)
데이터 마이닝 결과에 대한 해석과 평가 분석 목적과의 일치성을 확인하는 단계(업무 활용방안 마련)
필요에 따라 Selection 단계에서 Data Mining 단계까지 반복 수행

 
 

✅️ CRISP-DM 분석 방법론 분석 절차 설명

절차 설명 세부요소
Business
Understanding
(업무 이해)
비즈니스 관점에서 프로젝트 목적과 요구사항을 이해하기 위한 단계
도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립
업무 목적 파악
데이터 마이닝 목표 설정
프로젝트 계획 수립
상황 파악
Data
Understanding
(데이터 이해)
분석을 위한 데이터를 수집하고 데이터 속성을 위해하기 위한 단계
데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견하는 단계
초기 데이터 수집
데이터 기술 분석/탐색
데이터 품질 확인
Data Preparation
(데이터 준비)
분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터를 편성하는 단계
많은 시간이 소요될 수 있음
분석용 데이터셋 선택
데이터 정제/통합
분석용 데이터셋 편성
데이터 포맷팅
Modeling
(모델링)
다양한 모델링 기법과 알고리즘을 선택하고 파라미터를 최적화하는 단계
데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행 모델링 결과를 테스트용 데이터셋으로 평가해 모델의 과적합(Over Fitting) 문제를 확인
모델링 기법 선택
모델 테스트 계획 설계
모델 작성, 모델 평가
Evaluation
(평가)
모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계
데이터 마이닝 결과를 최종적으로 수용할 것인지 판단
분석 결과 평가
모델링 과정 평가
모델 적용성 평가
Deployment
(배포)
모델링과 평가 단계를 통해 완성된 모델을 실 업무에 적용하기 위한 계획 수립
모니터링 모델의 유지보수 계획 마련
전개 계획 수립
모니터링과 유지보수
계획 수립
프로그램 종료보고서 작성
프로젝트 리뷰

 

 

SEMMA(Sampling Exploation Modification Modeling Assessment) 분석 방법론
✅️ SEMMA 분석 절차 설명

절차 설명 세부요소/산출물
Sampling
(데이터 생성)
분석 데이터를 생성하는 단계
비용절감 및 모델 평가를 위한 데이터 준비
통계적 추출
조건 추출
Explore
(데이터 탐색)
분석 데이터를 탐색하는 단계
데이터 조감을 통한 데이터 오류 검색
데이터 현황을 통한 비즈니스 이해, 아이디어를 위한 이상현상, 변화 등을 탐색
기초 통계, 그래픽적 탐색 요인별 분할표
Clustering 변수 유의성 및 상관분석
Modify
(데이터 수정/변환)
분석 데이터를 수정/변환하는 단계
데이터가 지닌 정보의 표현 극대화
최적의 모델을 구축할 수 있도록 다양한 형태로 변수를 생성, 선택, 변형
수량화, 표준화, 각종 변환, 그룹화
Modeling
(모델링)
모델을 구축하는 단계
데이터의 숨겨진 패턴 발견
하나의 비즈니스 문제 해결을 위해 특수 모델과 알고리즘 적용 가능
Neural Network
Decision Tree
Logistic Regression
전통적 통계
Assessment
(모델 평가)
모델 평가 및 검증하는 단계
서로 다른 모델을 동시에 비교
추가 분석 수행 여부 결정
텍스트 교본
Feedback
모델의 검증

 

✅️ 빅데이터 분석 방법론 5단계 절차

분석 단계 설명
Step1: 분석 기획 - 비즈니스 문제를 정의하고 분석 목표를 설정
Step2: 데이터 준비 - 원시 데이터 수집, 정제, 변환 및 전처리 수행
Step3: 데이터 분석 - 통계 분석, 머신러닝, 데이터 마이닝 기법을 적용하여 인사이트 도출
Step4: 평가 및 전개 - 분석 결과를 평가하고, 비즈니스 적용 가능성을 검토
Step5: 시스템 구현 - 분석 모델을 실제 시스템에 적용 및 자동화