빅데이터의 특징
빅데이터 활용 3대 요소: 인자기(인력, 자원(데이터), 기술)
DIWK 피라미드
데이터(Data)
- 수, 영상, 단어 등의 형태로 된 의미 단위
- 이론을 세우는 데 기초가 되는 사실(Facts) 또는 바탕이 되는 자료
- 관찰이나 실험, 조사로 얻은 사실이나 자료
- 추측이나 예측을 위한 기반으로 활용되는 알려진 사실 또는 알려진 것
정보(Information) = 데이터 + 가공/처리
- 신호, 기호, 문자 등의 기록
- 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터
지식(Knowledge)
- 상호 연결된 정보 패턴을 이해하고 이를 토대로 예측한 결과물
지혜(Wisdom)
- 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
지식의 형태
지식의 형태 | 설명 | 부연설명 | 예시 |
암묵지(Tacit Knowledge) | 언어로는 설명할 수 없이 전적으로 개인의 경험이나 잠재적인 능력에서 비롯되는 지식 | 주관적 지식, 경험 기반 지식, 정황에 따라 달라지는 지식 | 수영하기, 자전거타기 |
형식지(Explicit Knowledge) | 언어로 명료화하여 전달될 수 있는 지식 | 코드화된 지식, 체계화된 언어로 상호 전달 가능한 지식 | 매뉴얼, 표준, 데이터베이스 |
데이터베이스 시스템의 정의
구성요소 | 설명 | 특징 |
데이터베이스 | 특정 조직의 여러 사용자가 공유해서 사용할 수 있도록 통합해서 저장한 운영데이터의 집합 | 통합, 저장, 운영, 공유 |
데이터베이스 관리시스템 | 응용 프로그램을 대신하여 데이터베이스에 존재하는 데이터의 검색/삽입/삭제/수정을 가능하게 하고, 모든 응용 프로그램이 데이터베이스를 공유할 수 있게 하는 시스템 | 정의, 조작, 제어 |
데이터베이스 언어 | 데이터베이스를 구축하고 활용 및 관리하는 언어 | DDL, DML, DCL |
사용자 | 데이터베이스를 이용하기 위해 접근하는 모든 사람 | 데이터베이스 관리자, 최종 사용자, 응용 프로그래머 |
하드웨어 | 데이터베이스 시스템의 성능과 직결되는 인프라 환경 | CPU, 메인 메모리, 입/출력 연산, 대용량 저장장치 |
데이터베이스 특징
특징 | 설명 |
통합 데이터(Integrated Data) | 똑같은 데이터가 원칙적으로 중복되어 있지 않음(최소의 중복, 통제된 중복) |
저장데이터(Stored Data) | 컴퓨터가 접근 가능한 저장매체에 저장(SSD, HDD, 디스크, 테이프 등) |
운영데이터(Operation Data) | 한 조직의 고유한 기능을 수행하기 위해 필요한 데이터 |
공용데이터(Shared Data) | 한 조직의 여러 응용 프로그램이 공동으로 소유/유지/이용하는 데이터 |
빅데이터의 정의
정의 | 설명 |
최초 정립 | 데이터 양이 큰 데이터(수십 테라바이트 이상의 정형/반정형/비정형 데이터) |
분석과 가치 | 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술 |
한국데이터진흥원 | 데이터에 대한 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것 |
bit -비트 | - |
Byte - 바이트 | - |
KB -킬로바이트 | 2^10 |
MB - 메가바이트 | 2^20 |
GB- 기가바이트 | 2^30 |
TB - 테라바이트 | 2^40 |
PB - 페타바이트 | 2^50 |
EB - 엑사바이트 | 2^60 |
ZB - 제타바이트 | 2^70 |
YB - 요타바이트 | 2^80 |
빅데이터 부각 배경
구분 | 부각 배경 | 내용 | 부연설명 |
사회적 변화 | 스마트 시대 부각 양적 데이터의 질적 활용 |
모바일 중심의 사회 패러다임 전환으로 활용 데이터 증가 | 산업 간 융합으로 ICT 경계를 모호하게 하는 증상을 태동함 |
개인화 분석 요구 | 통계학, 머신러닝 등 활용성 증가 | 딥러닝 알고리즘의 고도화 | |
정보통신 기술의 발전 | 스마트 디바이스, IoT, 클라우드 등의 활용 | 정형/비정형 데이터의 저장 및 처리 환경 발전 | 스마트폰, 지능형 CCTV, 스마트팩토리 등 |
분산처리 기술 고도화 | 대용량 분산병렬처리시스템의 보편화 | Hadoop 등 빅데이터 아키텍처 활용 | |
데이터의 폭발적 증가 | SNS 급격 확산 | 콘텐츠 증가, 정형/비정형 데이터 증가 | 페이스북, 인스타그램 등 수평/수직 SNS의 확산 |
빅데이터의 특징: 3V
특징 | 세부 내용 | 부연 설명 |
Volume(크기) | 물리적 데이터 양의 증가 | 수십 페타/엑사/제타바이트 수준의 대규모 데이터 |
Variety(다양성) | 데이터의 다양성 | 정형/반정형/비정형 데이터 |
Velocity(속도) | 실시간에 가까운 빠른 수집 및 처리속도 | 수집/분석/활용/가시화 과정의 비즈니스에 효율적 처리속도 |
정통적 분석과 빅데이터 분석의 차이
차이점 | 전통적 데이터 분석 | 빅데이터 데이터 분석 |
데이터의 확장 | 조직 내부 데이터 분석, 과거 현상 기반 | 내부와 외부 데이터를 활용한 분석, 현재 사실을 기반으로 미래 예측 |
데이터의 다양화 | 단순하고 소형화, 정형 데이터 분석 | 다양하고 대용량, 정형/비정형 데이터 분석 |
데이터의 대규모화 | 특정 시스템 중심 분석 | 복합 시스템 중심 분석 |
빅데이터가 만들어내는 변화
변화 | 설명 |
사전처리 → 사후처리 | 정해진 특정한 정보만 처리하는 것이 아닌, 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아냄 |
표본조사 → 전수조사 | 일부 샘플을 이용한 표본조사로 유실할 수 있는 패턴이나 정보를 전체 데이터를 이용한 전수조사가 가능한 환경으로 변화됨. 활용의 융통성 유지 가능 |
질 → 양 | 대세에 영향을 주지 못하는 사례일지라도 다른 변수에 대해서는 풍부한 정보를 갖고 있기 떄문에 모든 데이터를 활용할 때, 훨씬 더 많은 가치를 추출할 수 있다는 관점 |
인과관계 → 상관관계 | 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 더 압도해가는 시대 도래 |
빅데이터의 가치
빅데이터의 가치 산정이 어려운 이유
데이터 활용 방식 | 재사용, 재조합이 많아서 어떤 데이터가 활용될지 예측이 어렵다 |
가치 창출 방식 | 기존에 없던 새로운 가치를 창출함에 따라 가치 측정이 어렵다 |
가치 경계 측정 방식 | 분석 기술의 발달로 이전에 발견하지 못한 새로운 데이터 발굴이 가능해졌으나 가치 있는 데이터 식별이 어렵다 |
빅데이터의 가치
구분 | 빅데이터의 가치 | 설명 |
혁신 추구 | 데이터 중심 혁신 | 모든 산업 분야의 생산성을 높여, 사회/경제/문화/생활 전반에 혁신을 이룸 |
새로운 산업 창출 | 각종 비즈니스, 대국민 서비스 등 경제 성장에 필요한 정보를 제공하여 새로운 범주의 산업을 만듦 | |
플랫폼 매개체 | 플랫폼에서 다양산 서비스/시스템과 사용자를 연결하여 비즈니스 가치를 극대화 | |
생산성 향상 | 산업 생산성 향상 | 필요 분야에 데이터를 제공함으로써 생산성을 최대화하고 낭비를 최소화 |
경쟁력 확보 | 소비자 맞춤형 서비스 | 고객 세분화를 통한 맞춤형 서비스 제공 |
의사결정 지원 | 데이터 기반의 명확한 근거 제공 및 숨겨진 가치와 패턴 도출 | |
비즈니스 모델의 혁신 | 새로운 비즈니스 모델 발굴 위한 인사이트 제공 | |
미래 대응 | 상황 분석, 환경 탐색 | 기상, 인구 이동 등 각종 통계 정보를 수집하여 사회 변화를 추정하고 관련 정보 추출 |
빅데이터 활용을 위한 3요소
요소 | 설명 | 예시 |
자원(데이터) | 모든 것을 데이터화(Datafication)하고 축전된 데이터를 창의적으로 재활용하여 새로운 가치 창출 | 데이터 자원 확보 데이터 품질 관리 |
기술 | 알고리즘을 학습시킬 수 있는 데이터의 양이 증가하면서 빅데이터 분석 및 처리기술의 진화 가속화 | 데이터 저장, 관리 기술 대용량 데이터 처리 빅데이터 분석 및 시각화, 인공지능(AI) |
인력 | 빅데이터 분석 및 처리를 위한 데이터 사이언티스트와 알고리즈미스트의 역할이 더욱 중요해졌으며, 다각적 분석을 통한 인사이트 도출 | 수학, 공학, IT기술 등의 전문능력 경제학, 통계학 등 다문화적 이해 비판적 사고와 커뮤니케이션 능력 |
빅데이터의 위기 요인과 통제 방안
빅데이터 위기 요인 | 사생활 침해 | 책임 원칙 훼손 | 데이터 오용 |
개인정보를 목적 외로 활용할 경우 사생활 침해와 사회/경제적 위협으로 확대 | 정확성 증가로 사람들이 알고리즘에 의해 희생양이 될 가능성 | 데이터 활용자의 과신으로 잘못된 가치를 비즈니스에 적용하여 직접적인 손실 발생 | |
빅데이터 통제 방안 | 동의에서 책임으로 | 결과 기반 책임 원칙 고수 | 알고리즘 접근 허용 |
'개인정보 제공자의 동의'에서 '개인정보 사용자의 책임'으로 해결 | 특정인의 '성향'이 아니라 '행동 결과'를 보고 처벌 | 알고리즘 접근권 보장, 알고리즘에 의한 피해자 구제 전문가 '알고리즈미스트' 대두 |
데이터 산업의 이해
데이터 산업의 진화 과정
시대 | 설명 |
데이터 처리 시대 | 컴퓨터 프로그래밍 언어를 이용하여 대규모 데이터를 빠르고 정확하게 처리하는 시대. 프로그래머들의 주된 역할 |
데이터 통합 시대 | 데이터의 일관성을 확보하고 무결성을 유지하여 데이터를 저장, 공유, 통합하는 시대. 데이터 통합 성능 향상을 위해 DBMS 활용, 데이터 웨어하우스(Data Warehouse) 도입 |
데이터 분석 시대 | 데이터의 폭발적 증가로 대규모 데이터를 저장, 처리할 수 있는 분산시스템을 활용하는 시대 데이터 마켓플레이스(Data Marketplace)와 데이터 레이크(Data Lake) 활용 |
데이터 연결 시대 | 기업 또는 기관, 사람, 사물 등 모든 것이 서로 연결되어 상호 작용 하면서 데이터를 주고받는 시대 오픈 API(Application Programming Interface)로 서비스와 데이터를 개방 |
데이터 권리 시대 | 데이터의 원래 소유자인 개인이 자신의 데이터에 대한 권리를 보유하고 있으며 스스로 행사할 수 있어야 한다는 생각이 사회적으로 공감대가 부각되는 시대 |
빅데이터 조직 및 인력
빅데이터 조직의 필요성
필요성 | 설명 |
데이터 과제 발굴 | 비즈니스 도메인의 문제 정의 및 개선 과제 발굴 |
기술 검토 | 데이터 및 기술적 타당성 검토 |
전사 업무 적용 계획 | 우선순위 기반의 전사 업무 적용 계획 수립 및 운영 계획 전파 |
데이터 분석 | 비즈니스 기반의 데이터 분석 및 데이터 분석가의 전문 역량 적용 |
데이터 활용 | 데이터 자산화와 데이터 활용 관리 |
데이터 분석 거버넌스 체계
- Data: 데이터
- System: 분산 관련 시스템
- Process: 과제 기획 및 운영 프로세스
- Organization:
- Human Resource: 분석 교육/마인드 육성 체계
데이터 분석 수준 진단
분석준비도(Readiness) 진단 영역
분석 업무 파악 | 인력 및 조직 | 분석 기법 |
발생한 사실 분석 업무 예측 분석 업무 시뮬레이션 분석 업무 최적화 분석 업무 분석 업무 정기적 개선 |
분석 전문가 직무 존재 전문가 교육훈련 프로그램 관리자 기본 분석 능력 전사 총괄 조직 경영진 분석 업무 이해 |
업무별 적합한 분석 기법 분석 업무 도입 방법론 분석 기법 라이브러리 분석 기법 효과성 평가 분석 기법 정기적 개선 |
분석 데이터 | 분석 문화 | IT 인프라 |
분석 업무를 위한 데이터 (충분성/신뢰성/적시성) 비구조적 데이터 관리 외부 데이터 활용 체계 기준 데이터 관리(MDM) |
사실에 근거한 의사결정 관리자의 데이터 중심 회의 등에서 데이터 뢀용 직관보다 데이터 활용 데이터 공유 및 협업 문화 |
운영시스템 데이터 통합 EAI, ETL 등 데이터 유통 체계 분석 전용 서버 및 스토리지 분석 환경(빅데이터/통계/비주얼) |
분석성숙도(Maturiy) 평가 단계
구분 | 도입 단계 | 활용 단계 | 확산 단계 | 최적화 단계 |
설명 | 분석 시작, 환경과 시스템 구축 | 분석 결과를 실제 업무에 적용 | 전사 차원에서 분석을 관리하고 공유 | 분석을 진화시켜서 혁신 및 성과 향상에 기여 |
비즈니스 | 실적 분석 및 통계 정기보고 수행 운영 데이터 기반 |
미래 결과 예측 시뮬레이션 운영데이터 기반 |
전사 성과 실시간 분석 분석 규칙 관리 이벤트 관리 |
외부 환경 분석 활용 최적화 업무 적용 실시간 분석 비즈니스 모델 진화 |
조직, 역량 | 일부 부서에서 수행 담당자 역량에 의존 |
전문 담당 부서에서 수행 분석기법 도입 관리자가 분석 수행 |
전사 모든 부서 수행 분석 COE 조직 운영 데이터 사이언티스트 확보 |
데이터 사이언스 그룹 경영진 분석 활용 전략 연계 |
IT | 데이터 웨어하우스 데이터 마트 ETL/EAI OLAP |
실시간 대시보드 통계 분석 환경 |
빅데이터 관리 환경 시뮬레이션, 최적화 비주얼 분석 전용 서버 |
분석 협업 환경 분석 샌드박스 프로세스 내재화 빅데이터 분석 |
분석 수준 결과 진단
데이터 거버넌스
구분 | 요소 | 설명 |
중요 관리 대상 | 마스터 데이터 | 자주 변하지 않고 자료 처리 운용에 기본 자료로 제공되는 자료의 집합 |
메타 데이터 | 다른 데이터를 설명해주는 데이터, '데이터를 표현/빨리 찾기 위한 목적' | |
데이터 사전 | 자료에 관한 정보를 모아두는 저장소(자료의 이름/표현방식/의미/사용방식/관계) | |
빅브라더 | 개인 프라이버시에 대한 데이터(정보의 독점으로 사회를 통제) | |
구성요소 | 원칙 | 데이터를 유지/관리하기 위한 지침과 가이드 보안, 품질, 기준, 변경 관리 |
조직 | 데이터를 관리할 조직의 역할과 책임 데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트 |
|
프로세스 | 데이터 관리를 위한 활동과 체계 작업 절차, 모니터링 활동, 측정 활동 |
|
데이터 거버넌스 체계 | 데이터 표준화 | 데이터 표준 용어 설정 등 |
데이터 관리 체계 | 데이터 정합성 및 활용을 효율성을 위해 관리 원칙 수립, 역할과 책임 정의 | |
저장소 관리 | 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소 | |
표준화 활동 | 표준 준수 여부를 주기적으로 점검하고 모니터링 실시 |
4.4 빅데이터 조직 및 인력 구성
구분 | 집중 구조 | 기능구조 | 분산구조 |
분석 주체 | 독립적 분석 전담 조직 | 해당 부서에서 분석 업무 수행 | 현업 부서로 분석 인력 배치 |
집중도 | 중요도에 따라 우선순위 선정, 업무집중도 높음 | 전사 관점의 핵심 분석 어려움 | 전사 우선순위, 신속한 업무 |
특징 | 협업 업무부서의 분석 업무와 이중화/이원화 가능성 | 과거실적에 국한된 분석 수행 | 역할병행, 업무과다 |
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 빅데이터 분석 기획 (0) | 2025.02.22 |
---|---|
[빅데이터분석기사 필기] 빅데이터 기술 및 제도 출제예상문제 오답노트 (2) | 2025.02.22 |
[빅데이터분석기사 필기] 빅데이터 기술 및 제도 (4) | 2025.02.22 |
[빅데이터분석기사 필기] 빅데이터 분석 기획 출제예상문제 오답노트 (0) | 2025.02.21 |
2025 제 10회 빅데이터분석기사(빅분기) 필기 (0) | 2025.02.20 |