데이터 시각화의 종류
구분 | 개념 | 기법 예시 |
분포 시각화 | 구분에 따른 변화를 최대, 최소, 전체 분포 등으로 분류하고 관계 설명 | 도넛 차트, 파이 차트, 트리맵 |
시간 시각화 | 시간의 흐름에 따른 변화를 통해 트렌드를 파악 | 점 그래프, 막대 그래프 |
비교 시각화 | 데이터 간 차이점 및 유사성 관계 확인 가능 | 평행 좌표 그래프, 히트 맵, 체크보드 페이스 |
관게 시각화 | 집단 간 상관관계를 확인해 다수치 변화 예측 | 버블 차트, 산점도, 히스토그램 |
공간 시각화 | 지도 등을 통해 시점에 따른 경향이나 차이 확인 | 도트맵, 등치선도, 카토그램 |
데이터 시각화의 과정
단계 | 설명 | 예 |
구조화 | 원본 데이터를 정리하고 분석 목적에 맞게 가공하는 단계 | 데이터 정제, 변수 선택, 그룹화 |
시각화 | 데이터를 그래프, 차트 등으로 변환하여 패턴을 파악하는 단계 | 막대 그래프, 산점도, 히트맵 |
시각표현 | 시각적으로 효과적인 디자인을 적용하여 가독성을 높이는 단계 | 색상 선택, 레이블 추가, 애니메이션 활용 |
빅데이터 시각화 도구
도구 | 설명 |
인포그램 | - 실시간으로 인포그래픽을 연동그래픽을 연동해주는 시각화 도구 - 강의, 교육, 미디어 등의 자료 제작에 유용 |
태블로 | - 그래프, 차트, 지도 등을 포함한 여러 가지 그래픽 기능을 제공하는 시각화 도구 - 클라우드 기반으로 데이터를 클라우드에 저장 |
데이터 래퍼 | - 용이하게 데이터를 업로드하고 맵 또는 차트 등으로 변환하는 시각화 도구 - 사용자의 목적에 따라 제작이 가능한 레이아웃을 제공 |
차트 블록 | - 코딩 없이 스프레드시트, 데이터베이스 형태의 데이터를 용이하게 가시화하는 시각화 도구 - 웹 기반의 차트를 구현 |
시각화 분석을 하기 위한 데이터의 구분
데이터의 종류 | 구분 | 분석수행의 내용 |
범주, 비율 | 범위 | 값의 범위 파악 |
분포 | 각 개별 변수들, 변수 조합이 지니는 분포의 형태를 파악 | |
순위 | 크기를 기반으로 데이터의 순서 파악(최댓값, 최솟값, 사분위수, 중위수 등) | |
측정 | 값이 지니는 중요성의 파악, 숫자 자체보다 깊이 있는 조사를 수행 | |
추세, 패턴 | 추세방향 | 값의 증가, 감소 등의 변화를 확인 |
추세패턴 | 선형 또는 지수형 등으로 변화하는지, 변화하지 않는지 등을 확인 | |
추세속도 | 추세가 어느 정도로 급한지를 파악 | |
변동패턴 | 반복되는 패턴, 변동, 폭, 무작위 패턴 등의 확인 | |
중요도 | 확인한 패턴이 중요한 신호인지 아니면 잡음인지 파악 | |
교차 | 변수 사이의 교차, 중첩 발생의 여부, 교차점이 발생하는지 확인 | |
관계, 연결 | 예외 | 이상값과 같은 정상범위를 벗어난 변수의 파악 |
상관성 | 변수 간 연관성이 강하거나 또는 약한 상관관계의 존재 확인 | |
연관성 | 변수 및 값의 조합 간 의미 있는 관계의 파악 | |
계층관계 | 데이터 범주의 구성 및 분포, 관련성의 파 |
비즈니스 기여도 평가
- 사업의 수행에 있어 영향을 미치는 요소를 수치화 된 자료의 형태로 산출하는 평가방법
- 의미 있는 분석 결과를 확보하기 위한 비즈니스 기여도의 산출이 가능해야 함
비즈니스 기여도의 평가 지표
기법 | 설 |
투자 대비 효과 (ROI) (Return on Investment) |
투자에 대한 수익을 측정하는 지표로, 수익을 투자액으로 나눈 비율 |
총 소유 비용 (TCO) (Total Cost of Ownership) |
제품 또는 시스템을 구입하고 운영하는 데 드는 전체 비용 |
내부수익률 (IRR) (Internal Rate of Return) |
투자에서 얻는 현금 흐름의 수익률로, 투자 비용을 초과하는 수익을 평가 |
순재가치 (NPV) (Net Present Value) |
미래 현금 흐름을 현재 가치로 할인한 후, 초기 투자액을 뺀 값 |
투자회수기간 (PP) (Paypack Period) |
투자를 회수하는 데 걸리는 시간을 나타내며, 투자액을 수익으로 나누어 계산 |
비즈니스 기여도의 평가 시 고려사항
검증 항목 | 고려사항 |
성능 검증 | 시뮬레이션을 통한 처리량, 대기시간, 대기행렬의 감소를 통한 성능 측면의 효과를 제시 |
효과 검증 | 데이터 모델링 과정을 통한 검출율의 증가, 향상도 개선 등의 효과를 제시 |
중복 검증 | 타 모델링과의 중복에 의한 효과를 통제 및 제시 가능해야 하며 단위 프로젝트별 수익 및 비용 등으로 평가하는 것이 원칙 |
최적화 검증 | 최적화를 통해 목적함수가 증가한 만큼의 효과를 제시 |
인포 그래픽(Info-Graphics)
인포 그래픽의 종류 | 설명 |
지도형 인포 그래픽 | - 세계지도, 또는 특정 국가나 지역의 지도를 메인 비주얼로 삼아 정보를 담는 방식 - 국가별, 지역별로 다른 통계수치나 미디어 이용 형태 등을 보여주기에 용이 - 주로 국가별 소셜미디어 이용 현황, 선거 출마 후보의 지역별 선호도, 매장 분포도 등에 적용 |
도표형 인포 그래픽 | - 파이차트, 벤다이어그램, 막대그래프 등 다양한 도표를 사용하여 정보를 보여주는 방식 - 모든 종류의 수치 데이터의 표현 가능 |
타임라인형 인포 그래픽 | - 특정 주제를 선정하여 그와 관련된 히스토리나 전개 양상을 타임라인 형태로 나타내는 방식 - 한 가지 키워드를 집중적으로 연구한 결과를 보여주기에 적절 - '동선' 설계가 우선인데, 시간의 순서대로 시간이 따라가기 마련이므로, 하나의 이미지 속에서 시선이 움직이는 경로를 어떻게 설계하는지가 관건 - 역사, 유례, 진화 등과 관련된 정보 전달에 용이 |
스토리텔링형 인포 그래픽 | - 비록 눈에 띄는 수치나 도표는 없지만 하나의 사건이나 주제에 대해 이야기하는 들려주는 구성 - 줄거리라고 보일만한 요소들이 갖추어져 있으며 특정 인물이 등장하여 사건에 대한 이야기를 펼치기도 함 |
만화형 인포 그래픽 | - 귀여운 캐릭터나 일러스트를 이용해서 내용의 이해를 돕는 방법 - 주로 일상생활과 관련된 흥미성 자료에 적용 가능 - 행동, 직업, 심리 등과 관련된 정보표현에 용이 |
비교분석형 인포 그래픽 | - 두 개 이상의 경쟁사 또는 대척점에 있는 개념들을 비교하는 방법으로 정보를 전달하는 방식 - Facebook vs Twitter(X), Coca Cola vs Pepsi 등 경쟁관계에 있는 미디어나 브랜드의 비교에 좋음 |
인포그래픽의 활용
1. 퍼블릭 데이터의 활용: 구글 인사이트, 세계은행으로부터 추출된 데이터 등을 효과적으로 사용
2. 그래픽과 데이터와의 균형: 인포 그래픽에 포함된 정보는 깔끔하면서도 군더더기가 없어야 함
3. 무료 툴의 활용: Many Eyes, Stat Silk, Visually 등의 인포 그래픽 제작 툴의 활용
4. 템플릿과 아이콘의 배치: 단순한 아이콘을 사용해서 데이터 설명에 도움을 제공
5. 인포 그래픽스의 홍보: 트위터, 인스타그램 등 SNS의 적극적인 활용
6. 저작권의 설정: 홍보를 제한하는 정도에서 인포 그래픽스에 CCL을 생성하여 게재
서비스 품질 관점의 제공 가치(서브퀄; SERVQUAL 모형의 기준)
- 유형성: 서비스를 제공하는 물리적 시설(점포, 건물, 인테리어 등), 장비, 구성원들의 외양
- 신뢰성: 약속된 서비스를 믿을 수 있으며 정확하게 수행 가능한 구성원들의 능력
- 반응성: 즉각적인 서비스를 제공해줄 수 있는 구성원들의 능력
- 확신성: 구성원들ㄹ의 지식, 예절 등 고객들에게 신뢰 및 자신감을 심어줄 수 있는 능력
- 공감성: 고객 각각에 대한 개인적인 관심 및 배려
응용 프로그램의 주요 성능측정 항목
대상 | 측정 항목 | 측정 주기 |
메모리 사용 | - 시간 당 또는 일별 메모리 증가량 및 증가율 - 응용 프로그램 코드 및 라이브러리의 메모리 크기 |
정기 |
오류 및 예외 | - 오류 및 예외의 발생 여부, 유형 및 패턴 | 실시간 |
데이터베이스 처리 | - 사용된 SQL의 처리 시간 | 실시간 |
배치실행 환경 | - 배치 프로그램 수행 시간, 선후행 작업 결과 및 자원 사용량 | 실시간 |
응답시간 및 트랜잭션 처리량 | - 부하량에 의한 초당 트랜잭션 처리 건수, 처리시간 및 처리량의 추이 - 타임아웃 발생 건수, 타임아웃 발생 시의 응답시간 |
실시간 |
측정 항목별 영향을 미치는 요소 및 측정 방법
측정 항목 | 내용 | 영향 요소 |
사용률 | 정보시스템 자원의 일정시간 동안 정상적으로 사용한 비율 | 네트워크 자원을 일정시간 동안 사용하는 정도 |
정확성 | 정보시스템 처리 결과의 정확성에 영향을 주는 요인 | 하드웨어 장애, 잘못된 환경설정, 데이터 이상 값 |
가용성 | 서비스 장애 없이 정상적으로 계속하여 제공할 수 있는 능력 | 소프트웨어 버그, 하드웨어 장애, 장비 가용성, 운영자의 실수, 전기적인 문제, 서비스 가용성 등 |
응답시간 | 서비스 요청 시점에서부터 사용자의 응답시점까지 걸리는 시간 | 정보시스템 처리 성능, 정보시스템 자원 용량, 네트워크 구간의 처리용량 |
응용 솔루션 성능 측정의 항목 및 주기
대상 | 측정 항목 | 측정 주기 |
구간 별 수행시간 | 대기시간, 평균응답시간, 데이터베이스 처리 시간, 로드 시간 등 | 실시간 및 정기 |
대기 큐 | 대기 큐에 존재하는 평균요청개수, 대기시간 등 | 실시간 |
메모리 및 버퍼 | 메모리 영역 및 버퍼 사용량, 미스율, 히트율 등 | 실시간 및 정기 |
오류 및 예외 | 응용 솔루션의 오류 및 예외발생 건수, 유형 및 패턴 등 | 실시간 |
분석모형 리모델링
- 성과 모니터링 편차가 일정수준 이상으로 계속 하락하는 경우 기존 빅데이터 모형에 대해 시뮬레이션, 데이터 마이닝, 최적화 적용
- 분기, 반기, 연 단위로 실행되며 일, 주 단위 리모델링은 특수적인 분야를 제외하고 바람직하지 않음
- 분석모형 리모델링 시 수행업무 및 기법
기법 | 리모델링 시 수행하는 업무 | 리모델링 주기 |
데이터 마이닝 | 동일 데이터를 활용해 학습을 다시 실행하거나 변수를 추가하여 학습을 다시 수행 | 분기별 |
시뮬레이션 | 시간 지연의 변화, 이벤트 발생 패턴의 변화, 큐잉 우선순위, 이벤트를 처리하는 리소스의 증가, 자원 할당 규칙의 변화 등 처리 | 주요 변경이 이루어지는 시점 |
최적화 | 오브젝트 함수의 계수 변경 또는 제약조건 등에 확용되는 제약 값의 변화와 추가 | 1년에 한 번 |
- 분석모형 리모델링 절차: 개선용 데이터 수집 및 처리 → 분석모델의 개선 → 분석결과평가 및 분석모델의 등록
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 8회 기출 문제 정리 (0) | 2025.03.17 |
---|---|
[빅데이터분석기사 필기] 실전모의고사1 오답노트 (0) | 2025.03.10 |
[빅데이터분석기사 필기] 분석 모형 개선 (0) | 2025.03.09 |
[빅데이터분석기사 필기] 분석 모형 평가 (0) | 2025.03.08 |
[빅데이터분석기사 필기] 분석 기법 적용 (0) | 2025.03.07 |