빅데이터분석기사

[빅데이터분석기사 필기] 분석결과 해석

Jia H 2025. 3. 10. 10:06

데이터 시각화의 종류

구분 개념 기법 예시
분포 시각화 구분에 따른 변화를 최대, 최소, 전체 분포 등으로 분류하고 관계 설명 도넛 차트, 파이 차트, 트리맵
시간 시각화 시간의 흐름에 따른 변화를 통해 트렌드를 파악 점 그래프, 막대 그래프
비교 시각화 데이터 간 차이점 및 유사성 관계 확인 가능 평행 좌표 그래프, 히트 맵, 체크보드 페이스
관게 시각화 집단 간 상관관계를 확인해 다수치 변화 예측 버블 차트, 산점도, 히스토그램
공간 시각화 지도 등을 통해 시점에 따른 경향이나 차이 확인 도트맵, 등치선도, 카토그램

 

데이터 시각화의 과정

단계 설명
구조화 원본 데이터를 정리하고 분석 목적에 맞게 가공하는 단계 데이터 정제, 변수 선택, 그룹화
시각화 데이터를 그래프, 차트 등으로 변환하여 패턴을 파악하는 단계 막대 그래프, 산점도, 히트맵
시각표현 시각적으로 효과적인 디자인을 적용하여 가독성을 높이는 단계 색상 선택, 레이블 추가, 애니메이션 활용

 

 

빅데이터 시각화 도구

도구 설명
인포그램 - 실시간으로 인포그래픽을 연동그래픽을 연동해주는 시각화 도구
- 강의, 교육, 미디어 등의 자료 제작에 유용
태블로 - 그래프, 차트, 지도 등을 포함한 여러 가지 그래픽 기능을 제공하는 시각화 도구
- 클라우드 기반으로 데이터를 클라우드에 저장
데이터 래퍼 - 용이하게 데이터를 업로드하고 맵 또는 차트 등으로 변환하는 시각화 도구
- 사용자의 목적에 따라 제작이 가능한 레이아웃을 제공
차트 블록 - 코딩 없이 스프레드시트, 데이터베이스 형태의 데이터를 용이하게 가시화하는 시각화 도구
- 웹 기반의 차트를 구현

 

시각화 분석을 하기 위한 데이터의 구분

데이터의 종류 구분 분석수행의 내용
범주, 비율 범위 값의 범위 파악
분포 각 개별 변수들, 변수 조합이 지니는 분포의 형태를 파악
순위 크기를 기반으로 데이터의 순서 파악(최댓값, 최솟값, 사분위수, 중위수 등)
측정 값이 지니는 중요성의 파악, 숫자 자체보다 깊이 있는 조사를 수행
추세, 패턴 추세방향 값의 증가, 감소 등의 변화를 확인
추세패턴 선형 또는 지수형 등으로 변화하는지, 변화하지 않는지 등을 확인
추세속도 추세가 어느 정도로 급한지를 파악
변동패턴 반복되는 패턴, 변동, 폭, 무작위 패턴 등의 확인
중요도 확인한 패턴이 중요한 신호인지 아니면 잡음인지 파악
교차 변수 사이의 교차, 중첩 발생의 여부, 교차점이 발생하는지 확인
관계, 연결 예외 이상값과 같은 정상범위를 벗어난 변수의 파악
상관성 변수 간 연관성이 강하거나 또는 약한 상관관계의 존재 확인
연관성 변수 및 값의 조합 간 의미 있는 관계의 파악
계층관계 데이터 범주의 구성 및 분포, 관련성의 파

 

 

비즈니스 기여도 평가

- 사업의 수행에 있어 영향을 미치는 요소를 수치화 된 자료의 형태로 산출하는 평가방법

- 의미 있는 분석 결과를 확보하기 위한 비즈니스 기여도의 산출이 가능해야 함

 

비즈니스 기여도의 평가 지표

기법
투자 대비 효과 (ROI)
(Return on Investment)
투자에 대한 수익을 측정하는 지표로, 수익을 투자액으로 나눈 비율
총 소유 비용 (TCO)
(Total Cost of Ownership)
제품 또는 시스템을 구입하고 운영하는 데 드는 전체 비용
내부수익률 (IRR)
(Internal Rate of Return)
투자에서 얻는 현금 흐름의 수익률로, 투자 비용을 초과하는 수익을 평가
순재가치 (NPV)
(Net Present Value)
미래 현금 흐름을 현재 가치로 할인한 후, 초기 투자액을 뺀 값
투자회수기간 (PP)
(Paypack Period)
투자를 회수하는 데 걸리는 시간을 나타내며, 투자액을 수익으로 나누어 계산

 

비즈니스 기여도의 평가 시 고려사항

검증 항목 고려사항
성능 검증 시뮬레이션을 통한 처리량, 대기시간, 대기행렬의 감소를 통한 성능 측면의 효과를 제시
효과 검증 데이터 모델링 과정을 통한 검출율의 증가, 향상도 개선 등의 효과를 제시
중복 검증 타 모델링과의 중복에 의한 효과를 통제 및 제시 가능해야 하며 단위 프로젝트별 수익 및 비용 등으로 평가하는 것이 원칙
최적화 검증 최적화를 통해 목적함수가 증가한 만큼의 효과를 제시

 

 

인포 그래픽(Info-Graphics)

인포 그래픽의 종류 설명
지도형 인포 그래픽 - 세계지도, 또는 특정 국가나 지역의 지도를 메인 비주얼로 삼아 정보를 담는 방식
- 국가별, 지역별로 다른 통계수치나 미디어 이용 형태 등을 보여주기에 용이
- 주로 국가별 소셜미디어 이용 현황, 선거 출마 후보의 지역별 선호도, 매장 분포도 등에 적용
도표형 인포 그래픽 - 파이차트, 벤다이어그램, 막대그래프 등 다양한 도표를 사용하여 정보를 보여주는 방식
- 모든 종류의 수치 데이터의 표현 가능
타임라인형 인포 그래픽 - 특정 주제를 선정하여 그와 관련된 히스토리나 전개 양상을 타임라인 형태로 나타내는 방식
- 한 가지 키워드를 집중적으로 연구한 결과를 보여주기에 적절
- '동선' 설계가 우선인데, 시간의 순서대로 시간이 따라가기 마련이므로, 하나의 이미지 속에서 시선이 움직이는 경로를 어떻게 설계하는지가 관건
- 역사, 유례, 진화 등과 관련된 정보 전달에 용이
스토리텔링형 인포 그래픽 - 비록 눈에 띄는 수치나 도표는 없지만 하나의 사건이나 주제에 대해 이야기하는 들려주는 구성
- 줄거리라고 보일만한 요소들이 갖추어져 있으며 특정 인물이 등장하여 사건에 대한 이야기를 펼치기도 함
만화형 인포 그래픽 - 귀여운 캐릭터나 일러스트를 이용해서 내용의 이해를 돕는 방법
- 주로 일상생활과 관련된 흥미성 자료에 적용 가능
- 행동, 직업, 심리 등과 관련된 정보표현에 용이
비교분석형 인포 그래픽 - 두 개 이상의 경쟁사 또는 대척점에 있는 개념들을 비교하는 방법으로 정보를 전달하는 방식
- Facebook vs Twitter(X), Coca Cola vs Pepsi 등 경쟁관계에 있는 미디어나 브랜드의 비교에 좋음

 

인포그래픽의 활용

1. 퍼블릭 데이터의 활용: 구글 인사이트, 세계은행으로부터 추출된 데이터 등을 효과적으로 사용

2. 그래픽과 데이터와의 균형: 인포 그래픽에 포함된 정보는 깔끔하면서도 군더더기가 없어야 함

3. 무료 툴의 활용: Many Eyes, Stat Silk, Visually 등의 인포 그래픽 제작 툴의 활용

4. 템플릿과 아이콘의 배치: 단순한 아이콘을 사용해서 데이터 설명에 도움을 제공

5. 인포 그래픽스의 홍보: 트위터, 인스타그램 등 SNS의 적극적인 활용

6. 저작권의 설정: 홍보를 제한하는 정도에서 인포 그래픽스에 CCL을 생성하여 게재

 

서비스 품질 관점의 제공 가치(서브퀄; SERVQUAL 모형의 기준)

- 유형성: 서비스를 제공하는 물리적 시설(점포, 건물, 인테리어 등), 장비, 구성원들의 외양

- 신뢰성: 약속된 서비스를 믿을 수 있으며 정확하게 수행 가능한 구성원들의 능력

- 반응성: 즉각적인 서비스를 제공해줄 수 있는 구성원들의 능력

- 확신성: 구성원들ㄹ의 지식, 예절 등 고객들에게 신뢰 및 자신감을 심어줄 수 있는 능력

- 공감성: 고객 각각에 대한 개인적인 관심 및 배려

 

응용 프로그램의 주요 성능측정 항목

대상 측정 항목 측정 주기
메모리 사용 - 시간 당 또는 일별 메모리 증가량 및 증가율
- 응용 프로그램 코드 및 라이브러리의 메모리 크기
정기
오류 및 예외 - 오류 및 예외의 발생 여부, 유형 및 패턴 실시간
데이터베이스 처리 - 사용된 SQL의 처리 시간 실시간
배치실행 환경 - 배치 프로그램 수행 시간, 선후행 작업 결과 및 자원 사용량 실시간
응답시간 및 트랜잭션 처리량 - 부하량에 의한 초당 트랜잭션 처리 건수, 처리시간 및 처리량의 추이
- 타임아웃 발생 건수, 타임아웃 발생 시의 응답시간
실시간

 

측정 항목별 영향을 미치는 요소 및 측정 방법

측정 항목 내용 영향 요소
사용률 정보시스템 자원의 일정시간 동안 정상적으로 사용한 비율 네트워크 자원을 일정시간 동안 사용하는 정도
정확성 정보시스템 처리 결과의 정확성에 영향을 주는 요인 하드웨어 장애, 잘못된 환경설정, 데이터 이상 값
가용성 서비스 장애 없이 정상적으로 계속하여 제공할 수 있는 능력 소프트웨어 버그, 하드웨어 장애, 장비 가용성, 운영자의 실수, 전기적인 문제, 서비스 가용성 등
응답시간 서비스 요청 시점에서부터 사용자의 응답시점까지 걸리는 시간 정보시스템 처리 성능, 정보시스템 자원 용량, 네트워크 구간의 처리용량

 

응용 솔루션 성능 측정의 항목 및 주기

대상 측정 항목 측정 주기
구간 별 수행시간 대기시간, 평균응답시간, 데이터베이스 처리 시간, 로드 시간 등 실시간 및 정기
대기 큐 대기 큐에 존재하는 평균요청개수, 대기시간 등 실시간
메모리 및 버퍼 메모리 영역 및 버퍼 사용량, 미스율, 히트율 등 실시간 및 정기
오류 및 예외 응용 솔루션의 오류 및 예외발생 건수, 유형 및 패턴 등 실시간

 

 

분석모형 리모델링

- 성과 모니터링 편차가 일정수준 이상으로 계속 하락하는 경우 기존 빅데이터 모형에 대해 시뮬레이션, 데이터 마이닝, 최적화 적용

- 분기, 반기, 연 단위로 실행되며 일, 주 단위 리모델링은 특수적인 분야를 제외하고 바람직하지 않음

- 분석모형 리모델링 시 수행업무 및 기법

기법 리모델링 시 수행하는 업무 리모델링 주기
데이터 마이닝 동일 데이터를 활용해 학습을 다시 실행하거나 변수를 추가하여 학습을 다시 수행 분기별
시뮬레이션 시간 지연의 변화, 이벤트 발생 패턴의 변화, 큐잉 우선순위, 이벤트를 처리하는 리소스의 증가, 자원 할당 규칙의 변화 등 처리 주요 변경이 이루어지는 시점
최적화 오브젝트 함수의 계수 변경 또는 제약조건 등에 확용되는 제약 값의 변화와 추가 1년에 한 번

 

- 분석모형 리모델링 절차: 개선용 데이터 수집 및 처리 → 분석모델의 개선 → 분석결과평가 및 분석모델의 등록