📊 데이터 유효성과 활용성
🔍 데이터 정확성 및 활용성
- 정확성: 데이터가 사실과 일치하는 정도
- 일관성: 데이터가 시간에 따라 일관되게 유지되는 정도
- 활용성: 데이터가 얼마나 잘 활용될 수 있는지
🎯 데이터 품질 요소
정확성 | 사실성 | 적합성 | 필수성 | 연관성 |
데이터가 실제와 일치 | 데이터가 사실에 근거 | 데이터의 사용 목적에 적합 | 데이터가 필요한 항목 | 데이터 간의 관계가 성립 |
정합성 | 일치성 | 무결성 |
데이터가 정확하고 일관성 있음 | 데이터 항목들이 일치 | 데이터가 손상 없이 완전함 |
📦 데이터 유용성 및 접근성
유용성 | 접근성 | 적시성 | 보안성 |
데이터가 실제로 유용한 정도 | 데이터에 접근할 수 있는 정도 | 데이터가 적시에 제공되는지 여부 | 데이터의 보안 및 보호 상태 |
📥 데이터 적재
데이터는 빅데이터 유형과 실시간 처리 여부에 따라 다양한 저장 시스템에 적재됩니다. 이를 위해 RDBMS, HDFS, NoSQL 저장 시스템이 사용됩니다.
🔧 데이터 적재 도구
도구 | 설명 |
플루언티드 | 크로스 플랫폼 오픈소스 데이터 수집 소프트웨어 |
플럼 | 대용량 로그 수집/집계/이동 실시간 스트리밍 시스템 |
스크라이브 | 대용량 로그 수집 및 실시간 스트리밍 |
로그스태시 | 모든 로그 정보를 수집하여 하나의 저장소에 출력 |
🗃️ 빅데이터 저장 시스템
빅데이터 저장 시스템은 대용량 데이터 집합을 저장하고 관리하는 시스템입니다. 주요 빅데이터 저장 기술로는 다음과 같은 기술들이 있습니다:
- 분산 파일 시스템
- 데이터베이스 클러스터
- NoSQL
- 병렬 DBMS
- 네트워크 구성
- 클라우드 파일 저장 시스템
🛠️ 빅데이터 저장 기술
기술 | 설명 |
분산 파일 시스템 | 여러 호스트 컴퓨터가 네트워크를 통해 파일에 접근 |
데이터베이스 클러스터 | 하나의 DB를 여러 서버에 분산하여 구축 |
NoSQL | 수평적 확장이 가능한 DBMS로, 스키마와 조인 연산 없이 사용 |
병렬 DBMS | 여러 프로세서가 동시에 여러 개의 작업을 처리 |
클라우드 저장 시스템 | 클라우드 환경에서 데이터를 저장하는 시스템 |
💾 분산 파일 시스템
분산 파일 시스템은 여러 서버에 데이터를 분산하여 저장하는 시스템입니다. 주요 분산 파일 시스템은 GFS, HDFS, 러스터입니다.
시스템 | 특징 |
GFS | 64MB 청크와 복제본을 분산 저장 |
HDFS | 64~128MB 블록 크기, 분산된 서버에 대용량 파일 저장 |
러스터 | POSIX 지원, 객체 기반 클러스터 파일 시스템 |
🔄 NoSQL
NoSQL은 전통적인 RDBMS와 달리 수평적 확장성을 제공하며, 고정된 테이블 스키마와 조인 연산을 사용하지 않습니다. NoSQL은 BASE(Basically Available, Soft-State, Eventually Consistency) 모델을 따릅니다.
BASE 모델
항목 | 설명 |
Basically Available | 언제든지 데이터에 접근 가능 |
Soft-State | 노드 상태가 외부 정보로 결정됨 |
Eventually Consistency | 일정 시간이 지나면 데이터 일관성 유지 |
NoSQL 유형
유형 | 설명 |
Key-Value Store | 유니크한 키와 값의 조합으로 데이터를 저장 |
Column Family | 데이터가 (Column, Value) 형태로 저장됨 |
Document Store | 데이터가 Document 형태로 저장됨 |
Graph Store | 데이터를 그래프 형식으로 저장 |
⚖️ CAP 이론
CAP 이론은 분산 컴퓨팅 환경에서 Availability, Consistency, Partition Tolerance 3가지 특징 중 2가지만 만족할 수 있다는 이론입니다.
특징 | 설명 |
Consistency | 모든 사용자에게 같은 시간에 같은 데이터 제공 |
Availability | 모든 클라이언트가 읽기 및 쓰기가 가능해야 함 |
Partition Tolerance | 물리적 네트워크 분산 환경에서 시스템이 원활히 동작해야 함 |
+NoSQL의 종류 디테일
NoSQL 종류 | 설명 및 종류 |
Document-Oriented 데이터베이스 | JSON, XML 등의 문서 형식을 Key에 매핑하여 저장 MongoDB, CouchDB |
Key-Value 데이터베이스 | 데이터를 키와 그에 대응하는 값을 쌍으로 저장 Voldemort, Memcached |
Column-Oriented 데이터베이스 | 키에서 필드와 데이터를 행 기반으로 저장 및 처리 Cassandra, HBase, Google BigTable, Vertica, Druid, Accumulo, HyperTable |
Graph 데이터베이스 | 데이터를 노드로 표현하며 노드와의 사이의 관계를 연결선(Edge)으로 표현 Neo4J, Allegrograph |
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 데이터 정제 (0) | 2025.02.26 |
---|---|
[빅데이터분석기사 필기] 데이터 적재 및 저장 출제예상문제 오답노트 (0) | 2025.02.25 |
[빅데이터분석기사 필기] 데이터 수집 및 전환 출제예상문제 오답노트 (0) | 2025.02.24 |
[빅데이터분석기사 필기] 데이터 수집 및 전환 (0) | 2025.02.24 |
[빅데이터분석기사 필기] 분석 작업 계획 출제예상문제 오답노트 (0) | 2025.02.23 |