빅데이터분석기사

[빅데이터분석기사 필기] 빅데이터 개요 및 활동

Jia H 2025. 2. 20. 18:54

빅데이터의 특징

빅데이터 활용 3대 요소: 인자기(인력, 자원(데이터), 기술)

DIWK 피라미드

데이터(Data)

- 수, 영상, 단어 등의 형태로 된 의미 단위

- 이론을 세우는 데 기초가 되는 사실(Facts) 또는 바탕이 되는 자료

- 관찰이나 실험, 조사로 얻은 사실이나 자료

- 추측이나 예측을 위한 기반으로 활용되는 알려진 사실 또는 알려진 것

 

정보(Information) = 데이터 + 가공/처리

- 신호, 기호, 문자 등의 기록

- 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터

 

지식(Knowledge)

- 상호 연결된 정보 패턴을 이해하고 이를 토대로 예측한 결과물

 

지혜(Wisdom)

- 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어

 

지식의 형태

지식의 형태 설명 부연설명 예시
암묵지(Tacit Knowledge) 언어로는 설명할 수 없이 전적으로 개인의 경험이나 잠재적인 능력에서 비롯되는 지식 주관적 지식, 경험 기반 지식, 정황에 따라 달라지는 지식 수영하기,
자전거타기
형식지(Explicit Knowledge) 언어로 명료화하여 전달될 수 있는 지식 코드화된 지식, 체계화된 언어로 상호 전달 가능한 지식 매뉴얼, 표준,
데이터베이스

 

 

데이터베이스 시스템의 정의

구성요소 설명 특징
데이터베이스 특정 조직의 여러 사용자가 공유해서 사용할 수 있도록 통합해서 저장한 운영데이터의 집합 통합, 저장, 운영, 공유
데이터베이스 관리시스템 응용 프로그램을 대신하여 데이터베이스에 존재하는 데이터의 검색/삽입/삭제/수정을 가능하게 하고, 모든 응용 프로그램이 데이터베이스를 공유할 수 있게 하는 시스템 정의, 조작, 제어
데이터베이스 언어 데이터베이스를 구축하고 활용 및 관리하는 언어 DDL, DML, DCL
사용자 데이터베이스를 이용하기 위해 접근하는 모든 사람 데이터베이스 관리자, 최종 사용자, 응용 프로그래머
하드웨어 데이터베이스 시스템의 성능과 직결되는 인프라 환경 CPU, 메인 메모리, 입/출력 연산, 대용량 저장장치

 

데이터베이스 특징

특징 설명
통합 데이터(Integrated Data) 똑같은 데이터가 원칙적으로 중복되어 있지 않음(최소의 중복, 통제된 중복)
저장데이터(Stored Data) 컴퓨터가 접근 가능한 저장매체에 저장(SSD, HDD, 디스크, 테이프 등)
운영데이터(Operation Data) 한 조직의 고유한 기능을 수행하기 위해 필요한 데이터
공용데이터(Shared Data) 한 조직의 여러 응용 프로그램이 공동으로 소유/유지/이용하는 데이터

 

빅데이터의 정의

정의 설명
최초 정립 데이터 양이 큰 데이터(수십 테라바이트 이상의 정형/반정형/비정형 데이터)
분석과 가치 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술
한국데이터진흥원 데이터에 대한 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것

 

bit -비트 -
Byte - 바이트 -
KB -킬로바이트 2^10
MB - 메가바이트 2^20
GB- 기가바이트 2^30
TB - 테라바이트 2^40
PB - 페타바이트 2^50
EB - 엑사바이트 2^60
ZB - 제타바이트 2^70
YB - 요타바이트 2^80

 

빅데이터 부각 배경

구분 부각 배경 내용 부연설명
사회적 변화 스마트 시대 부각
양적 데이터의 질적 활용
모바일 중심의 사회 패러다임 전환으로 활용 데이터 증가 산업 간 융합으로 ICT 경계를 모호하게 하는 증상을 태동함
개인화 분석 요구 통계학, 머신러닝 등 활용성 증가 딥러닝 알고리즘의 고도화
정보통신 기술의 발전 스마트 디바이스, IoT, 클라우드 등의 활용 정형/비정형 데이터의 저장 및 처리 환경 발전 스마트폰, 지능형 CCTV, 스마트팩토리 등
분산처리 기술 고도화 대용량 분산병렬처리시스템의 보편화 Hadoop 등 빅데이터 아키텍처 활용
데이터의 폭발적 증가 SNS 급격 확산 콘텐츠 증가, 정형/비정형 데이터 증가 페이스북, 인스타그램 등 수평/수직 SNS의 확산

 

빅데이터의 특징: 3V

특징 세부 내용 부연 설명
Volume(크기) 물리적 데이터 양의 증가 수십 페타/엑사/제타바이트 수준의 대규모 데이터
Variety(다양성) 데이터의 다양성 정형/반정형/비정형 데이터
Velocity(속도) 실시간에 가까운 빠른 수집 및 처리속도 수집/분석/활용/가시화 과정의 비즈니스에 효율적 처리속도

 

정통적 분석과 빅데이터 분석의 차이

차이점 전통적 데이터 분석 빅데이터 데이터 분석
데이터의 확장 조직 내부 데이터 분석, 과거 현상 기반 내부와 외부 데이터를 활용한 분석, 현재 사실을 기반으로 미래 예측
데이터의 다양화 단순하고 소형화, 정형 데이터 분석 다양하고 대용량, 정형/비정형 데이터 분석
데이터의 대규모화 특정 시스템 중심 분석 복합 시스템 중심 분석

 

빅데이터가 만들어내는 변화

변화 설명
사전처리 → 사후처리 정해진 특정한 정보만 처리하는 것이 아닌, 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄
표본조사 → 전수조사 일부 샘플을 이용한 표본조사로 유실할 수 있는 패턴이나 정보를 전체 데이터를 이용한 전수조사가 가능한 환경으로 변화됨. 활용의 융통성 유지 가능
질 → 양 대세에 영향을 주지 못하는 사례일지라도 다른 변수에 대해서는 풍부한 정보를 갖고 있기 떄문에 모든 데이터를 활용할 때, 훨씬 더 많은 가치를 추출할 수 있다는 관점
인과관계 → 상관관계 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 더 압도해가는 시대 도래

 

 


 

빅데이터의 가치

빅데이터의 가치 산정이 어려운 이유

데이터 활용 방식 재사용, 재조합이 많아서 어떤 데이터가 활용될지 예측이 어렵다
가치 창출 방식 기존에 없던 새로운 가치를 창출함에 따라 가치 측정이 어렵다
가치 경계 측정 방식 분석 기술의 발달로 이전에 발견하지 못한 새로운 데이터 발굴이 가능해졌으나 가치 있는 데이터 식별이 어렵다

 

빅데이터의 가치

구분 빅데이터의 가치 설명
혁신 추구 데이터 중심 혁신 모든 산업 분야의 생산성을 높여, 사회/경제/문화/생활 전반에 혁신을 이룸
새로운 산업 창출 각종 비즈니스, 대국민 서비스 등 경제 성장에 필요한 정보를 제공하여 새로운 범주의 산업을 만듦
플랫폼 매개체 플랫폼에서 다양산 서비스/시스템과 사용자를 연결하여 비즈니스 가치를 극대화
생산성 향상 산업 생산성 향상 필요 분야에 데이터를 제공함으로써 생산성을 최대화하고 낭비를 최소화
경쟁력 확보 소비자 맞춤형 서비스 고객 세분화를 통한 맞춤형 서비스 제공
의사결정 지원 데이터 기반의 명확한 근거 제공 및 숨겨진 가치와 패턴 도출
비즈니스 모델의 혁신 새로운 비즈니스 모델 발굴 위한 인사이트 제공
미래 대응 상황 분석, 환경 탐색 기상, 인구 이동 등 각종 통계 정보를 수집하여 사회 변화를 추정하고 관련 정보 추출

 

 

빅데이터 활용을 위한 3요소

요소 설명 예시
자원(데이터) 모든 것을 데이터화(Datafication)하고 축전된 데이터를 창의적으로 재활용하여 새로운 가치 창출 데이터 자원 확보
데이터 품질 관리
기술 알고리즘을 학습시킬 수 있는 데이터의 양이 증가하면서 빅데이터 분석 및 처리기술의 진화 가속화 데이터 저장, 관리 기술
대용량 데이터 처리
빅데이터 분석 및 시각화, 인공지능(AI)
인력 빅데이터 분석 및 처리를 위한 데이터 사이언티스트와 알고리즈미스트의 역할이 더욱 중요해졌으며, 다각적 분석을 통한 인사이트 도출 수학, 공학, IT기술 등의 전문능력
경제학, 통계학 등 다문화적 이해
비판적 사고와 커뮤니케이션 능력

 

 

빅데이터의 위기 요인과 통제 방안

빅데이터 위기 요인 사생활 침해 책임 원칙 훼손 데이터 오용
개인정보를 목적 외로 활용할 경우 사생활 침해와 사회/경제적 위협으로 확대 정확성 증가로 사람들이 알고리즘에 의해 희생양이 될 가능성 데이터 활용자의 과신으로 잘못된 가치를 비즈니스에 적용하여 직접적인 손실 발생
빅데이터 통제 방안 동의에서 책임으로 결과 기반 책임 원칙 고수 알고리즘 접근 허용
'개인정보 제공자의 동의'에서 '개인정보 사용자의 책임'으로 해결 특정인의 '성향'이 아니라 '행동 결과'를 보고 처벌 알고리즘 접근권 보장, 알고리즘에 의한 피해자 구제 전문가 '알고리즈미스트' 대두

 


데이터 산업의 이해

데이터 산업의 진화 과정

시대 설명
데이터 처리 시대 컴퓨터 프로그래밍 언어를 이용하여 대규모 데이터를 빠르고 정확하게 처리하는 시대. 프로그래머들의 주된 역할
데이터 통합 시대 데이터의 일관성을 확보하고 무결성을 유지하여 데이터를 저장, 공유, 통합하는 시대. 데이터 통합 성능 향상을 위해 DBMS 활용, 데이터 웨어하우스(Data Warehouse) 도입
데이터 분석 시대 데이터의 폭발적 증가로 대규모 데이터를 저장, 처리할 수 있는 분산시스템을 활용하는 시대
데이터 마켓플레이스(Data Marketplace)와 데이터 레이크(Data Lake) 활용
데이터 연결 시대 기업 또는 기관, 사람, 사물 등 모든 것이 서로 연결되어 상호 작용 하면서 데이터를 주고받는 시대
오픈 API(Application Programming Interface)로 서비스와 데이터를 개방
데이터 권리 시대 데이터의 원래 소유자인 개인이 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사할 수 있어야 한다는 생각이 사회적으로 공감대가 부각되는 시대

 


빅데이터 조직 및 인력

빅데이터 조직의 필요성

필요성 설명
데이터 과제 발굴 비즈니스 도메인의 문제 정의 및 개선 과제 발굴
기술 검토 데이터 및 기술적 타당성 검토
전사 업무 적용 계획 우선순위 기반의 전사 업무 적용 계획 수립 및 운영 계획 전파
데이터 분석 비즈니스 기반의 데이터 분석 및 데이터 분석가의 전문 역량 적용
데이터 활용 데이터 자산화와 데이터 활용 관리

 

데이터 분석 거버넌스 체계

- Data: 데이터

- System: 분산 관련 시스템

- Process: 과제 기획 및 운영 프로세스

- Organization:

- Human Resource: 분석 교육/마인드 육성 체계

 

데이터 분석 수준 진단

분석준비도(Readiness) 진단 영역

분석 업무 파악 인력 및 조직 분석 기법
발생한 사실 분석 업무
예측 분석 업무
시뮬레이션 분석 업무
최적화 분석 업무
분석 업무 정기적 개선
분석 전문가 직무 존재
전문가 교육훈련 프로그램
관리자 기본 분석 능력
전사 총괄 조직
경영진 분석 업무 이해
업무별 적합한 분석 기법
분석 업무 도입 방법론
분석 기법 라이브러리
분석 기법 효과성 평가
분석 기법 정기적 개선
분석 데이터 분석 문화 IT 인프라
분석 업무를 위한 데이터
(충분성/신뢰성/적시성)
비구조적 데이터 관리
외부 데이터 활용 체계
기준 데이터 관리(MDM)
사실에 근거한 의사결정
관리자의 데이터 중심
회의 등에서 데이터 뢀용
직관보다 데이터 활용
데이터 공유 및 협업 문화
운영시스템 데이터 통합
EAI, ETL 등 데이터 유통 체계
분석 전용 서버 및 스토리지
분석 환경(빅데이터/통계/비주얼)

 

 

분석성숙도(Maturiy) 평가 단계

구분 도입 단계 활용 단계 확산 단계 최적화 단계
설명 분석 시작, 환경과 시스템 구축 분석 결과를 실제 업무에 적용 전사 차원에서 분석을 관리하고 공유 분석을 진화시켜서 혁신 및 성과 향상에 기여
비즈니스 실적 분석 및 통계 정기보고 수행
운영 데이터 기반
미래 결과 예측
시뮬레이션 운영데이터 기반
전사 성과 실시간 분석
분석 규칙 관리
이벤트 관리
외부 환경 분석 활용
최적화 업무 적용
실시간 분석
비즈니스 모델 진화
조직, 역량 일부 부서에서 수행
담당자 역량에 의존
전문 담당 부서에서 수행
분석기법 도입
관리자가 분석 수행
전사 모든 부서 수행
분석 COE 조직 운영
데이터 사이언티스트 확보
데이터 사이언스 그룹
경영진 분석 활용
전략 연계
IT 데이터 웨어하우스
데이터 마트
ETL/EAI
OLAP
실시간 대시보드
통계 분석 환경
빅데이터 관리 환경
시뮬레이션, 최적화
비주얼 분석
전용 서버
분석 협업 환경
분석 샌드박스
프로세스 내재화
빅데이터 분석

 

분석 수준 결과 진단

 

데이터 거버넌스

구분 요소 설명
중요 관리 대상 마스터 데이터 자주 변하지 않고 자료 처리 운용에 기본 자료로 제공되는 자료의 집합
메타 데이터 다른 데이터를 설명해주는 데이터, '데이터를 표현/빨리 찾기 위한 목적'
데이터 사전 자료에 관한 정보를 모아두는 저장소(자료의 이름/표현방식/의미/사용방식/관계)
빅브라더 개인 프라이버시에 대한 데이터(정보의 독점으로 사회를 통제)
구성요소 원칙 데이터를 유지/관리하기 위한 지침과 가이드
보안, 품질, 기준, 변경 관리
조직 데이터를 관리할 조직의 역할과 책임
데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트
프로세스 데이터 관리를 위한 활동과 체계
작업 절차, 모니터링 활동, 측정 활동
데이터 거버넌스 체계 데이터 표준화 데이터 표준 용어 설정 등
데이터 관리 체계 데이터 정합성 및 활용을 효율성을 위해 관리 원칙 수립, 역할과 책임 정의
저장소 관리 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소
표준화 활동 표준 준수 여부를 주기적으로 점검하고 모니터링 실시

 

4.4 빅데이터 조직 및 인력 구성

구분 집중 구조 기능구조 분산구조
분석 주체 독립적 분석 전담 조직 해당 부서에서 분석 업무 수행 현업 부서로 분석 인력 배치
집중도 중요도에 따라 우선순위 선정, 업무집중도 높음 전사 관점의 핵심 분석 어려움 전사 우선순위, 신속한 업무
특징 협업 업무부서의 분석 업무와 이중화/이원화 가능성 과거실적에 국한된 분석 수행 역할병행, 업무과다