빅데이터분석기사

[빅데이터분석기사 필기] 데이터 적재 및 저장

Jia H 2025. 2. 25. 12:41

📊 데이터 유효성과 활용성

🔍 데이터 정확성 및 활용성

  • 정확성: 데이터가 사실과 일치하는 정도
  • 일관성: 데이터가 시간에 따라 일관되게 유지되는 정도
  • 활용성: 데이터가 얼마나 잘 활용될 수 있는지

🎯 데이터 품질 요소

정확성 사실성 적합성 필수성 연관성
데이터가 실제와 일치 데이터가 사실에 근거 데이터의 사용 목적에 적합 데이터가 필요한 항목 데이터 간의 관계가 성립
정합성 일치성 무결성
데이터가 정확하고 일관성 있음 데이터 항목들이 일치 데이터가 손상 없이 완전함

📦 데이터 유용성 및 접근성

유용성 접근성 적시성 보안성
데이터가 실제로 유용한 정도 데이터에 접근할 수 있는 정도 데이터가 적시에 제공되는지 여부 데이터의 보안 및 보호 상태

📥 데이터 적재

데이터는 빅데이터 유형실시간 처리 여부에 따라 다양한 저장 시스템에 적재됩니다. 이를 위해 RDBMS, HDFS, NoSQL 저장 시스템이 사용됩니다.

🔧 데이터 적재 도구

도구 설명
플루언티드 크로스 플랫폼 오픈소스 데이터 수집 소프트웨어
플럼 대용량 로그 수집/집계/이동 실시간 스트리밍 시스템
스크라이브 대용량 로그 수집 및 실시간 스트리밍
로그스태시 모든 로그 정보를 수집하여 하나의 저장소에 출력

🗃️ 빅데이터 저장 시스템

빅데이터 저장 시스템은 대용량 데이터 집합을 저장하고 관리하는 시스템입니다. 주요 빅데이터 저장 기술로는 다음과 같은 기술들이 있습니다:

  • 분산 파일 시스템
  • 데이터베이스 클러스터
  • NoSQL
  • 병렬 DBMS
  • 네트워크 구성
  • 클라우드 파일 저장 시스템

🛠️ 빅데이터 저장 기술

기술 설명
분산 파일 시스템 여러 호스트 컴퓨터가 네트워크를 통해 파일에 접근
데이터베이스 클러스터 하나의 DB를 여러 서버에 분산하여 구축
NoSQL 수평적 확장이 가능한 DBMS로, 스키마와 조인 연산 없이 사용
병렬 DBMS 여러 프로세서가 동시에 여러 개의 작업을 처리
클라우드 저장 시스템 클라우드 환경에서 데이터를 저장하는 시스템

💾 분산 파일 시스템

분산 파일 시스템은 여러 서버에 데이터를 분산하여 저장하는 시스템입니다. 주요 분산 파일 시스템은 GFS, HDFS, 러스터입니다.

시스템 특징
GFS 64MB 청크와 복제본을 분산 저장
HDFS 64~128MB 블록 크기, 분산된 서버에 대용량 파일 저장
러스터 POSIX 지원, 객체 기반 클러스터 파일 시스템

🔄 NoSQL

NoSQL은 전통적인 RDBMS와 달리 수평적 확장성을 제공하며, 고정된 테이블 스키마와 조인 연산을 사용하지 않습니다. NoSQL은 BASE(Basically Available, Soft-State, Eventually Consistency) 모델을 따릅니다.

BASE 모델

항목 설명
Basically Available 언제든지 데이터에 접근 가능
Soft-State 노드 상태가 외부 정보로 결정됨
Eventually Consistency 일정 시간이 지나면 데이터 일관성 유지

NoSQL 유형

 

유형 설명
Key-Value Store 유니크한 키와 값의 조합으로 데이터를 저장
Column Family 데이터가 (Column, Value) 형태로 저장됨
Document Store 데이터가 Document 형태로 저장됨
Graph Store 데이터를 그래프 형식으로 저장

⚖️ CAP 이론

CAP 이론은 분산 컴퓨팅 환경에서 Availability, Consistency, Partition Tolerance 3가지 특징 중 2가지만 만족할 수 있다는 이론입니다.

특징 설명
Consistency 모든 사용자에게 같은 시간에 같은 데이터 제공
Availability 모든 클라이언트가 읽기 및 쓰기가 가능해야 함
Partition Tolerance 물리적 네트워크 분산 환경에서 시스템이 원활히 동작해야 함

+NoSQL의 종류 디테일

NoSQL 종류 설명 및 종류
Document-Oriented 데이터베이스 JSON, XML 등의 문서 형식을 Key에 매핑하여 저장
MongoDB, CouchDB
Key-Value 데이터베이스 데이터를 키와 그에 대응하는 값을 쌍으로 저장
Voldemort, Memcached
Column-Oriented 데이터베이스 키에서 필드와 데이터를 행 기반으로 저장 및 처리
Cassandra, HBase, Google BigTable, Vertica, Druid, Accumulo, HyperTable
Graph 데이터베이스 데이터를 노드로 표현하며 노드와의 사이의 관계를 연결선(Edge)으로 표현
Neo4J, Allegrograph