빅데이터분석기사

[빅데이터분석기사 필기] 데이터 적재 및 저장 출제예상문제 오답노트

Jia H 2025. 2. 25. 13:24

[틀린 문제]

 

02. 전통적 분석 환경에서의 ETL에 대한 설명으로 알맞지 않은 것은?

① ETL은 Extract, Transform, Load 세 단어의 축약어로 데이터 소스 시스템 및 환경으로부터 데이터를 추출하여 비즈니스 데이터로 변환 후 데이터 마트, 데이터 웨어하우스, ODS로 적재한다.
② ETL 구현을 위해 일괄 ETL(Batch ETL) 실시간 ETL(Real Time ETL)로 구분할 수 있다.
③ 대용량 데이터 처리를 위해 MPP(작업 단계에서 다수의 프로세서가 동시 처리할 수 있게 하는 병렬 처리 프로세스)를 지원한다.
④ ETL은 중간 단계에 저장하는 역할을 한다.

✅ MPP: Massively Parallel Computer

✅ ELT가 아니라 ETL!! - 마지막 단계에 저장

 

11. NoSQL 데이터베이스 시스템에는 여러 가지 저장 시스템이 사용된다. 데이터 모델에 따른 분류로 가장 부적절한 것은?

① Document-Oriented: 정형 데이터 형식의 정보를 저장 관리하기 위한 NoSQL
② Key-Value: 데이터를 키와 그에 대응하는 값을 쌍으로 처리하는 NoSQL
③ Column-Oriented: 데이터를 행 기반으로 저장 및 처리하는 NoSQL
④ Graph: 데이터를 노드로 표현하며 노드와의 사이의 관계를 연결선(edge)으로 표현하는 NoSQL

Document-Oriented: 문서 형식의 정보를 저장 관리하기 위한 데이터 베이스이다. 정형은 RDBMS잖니..!

 

 

[헷갈린 문제]

 

01. 다음 중 데이터 적재에 대한 설명으로 알맞지 않은 것은?

① 데이터 적재는 구조화된 데이터와 구조화되지 않은 데이터를 비롯한 전체 데이터를 가져와 비즈니스 목적에 실질적으로 유용하게 변환하는 과정이다.
② 조직 혹은 기업에서 여러 시스템의 데이터를 단일 데이터베이스, 데이터 저장, 데이터 웨어하우스 또는 데이터 레이크에 결합하기 위해 일반적으로 허용된다.
③ 데이터를 적재하여 저장하는 방식에는 대표적인 RDBMS를 사용하는 것이 일반적이다.
④ 전통적 분석 환경에서는 사용자에 분석할 수 있는 최소 범위를 제공하기 위해 ETL을 이용해 여러 시스템 및 환경에서 추출, 변환, 적재해 정형 데이터를 처리해왔다.

✅ RDBMS, NoSQL, 분산파일시스템이 있음

 

 

03. 다음 중 데이터에 추가 작업을 위해 사용되는 데이터 저장 기술인 ODS에 대한 설명으로 가장 부적절한 것은?

① ODS는 데이터에 추가 작업을 위해 다양한 데이터 원천(Source)으로부터 데이터를 추출 통합한 데이터베이스이다.
② ODS 내의 데이터는 향후 비즈니스 자원을 위해 타 정보시스템으로 이관되거나, 다양한 보고서 생성을 위해 데이터 웨어하우스로 이관된다.
③ ODS는 일반적으로 사후처리(Post Transaction) 또는 가격 등 원자성(개별성)을 지닌 하위 수준 데이터들을 저장하기 위해 설계된다.
④ 다양한 원천으로부터 데이터가 구성되기 때문에, ODS를 위한 데이터 통합은 일반적으로 데이터 클렌징, 중복 제거, 비즈니스 룰 대비 데이터 무결성 점검 등의 작업들을 포함한다.

✅ 사후처리가 아니라 실시간(Real Time) 또는 실시간 근접(Near Real Time) 트랜잭션

 

 

05. 데이터 웨어하우스에 대한 설명으로 가장 알맞지 않은 것은?

① 사용자의 의사결정에 도움을 주기 위해 기간 시스템의 데이터베이스에 축적된 데이터를 공통 형식으로 변환하고 관리해주는 데이터베이스이다.
② 기관이나 조직이 보유한 대부분의 운영시스템이 보유한 데이터를 개별적으로 분할해 관리하는 데이터베이스이다.
③ ODS를 통해 정제 및 통합괸 데이터는 데이터 분석과 보고서 생성을 위해 데이터 웨어하우스에 적재된다.
④ 데이터 웨어하우스는 실 업무 상황의 특정 이벤트나 항목을 기준으로 구조화되고, 최초 저장 후 읽기전용 속성을 갖게 되며 삭제가 되지 않는다.

✅ 운영시스템이 보유한 데이터를 "통합"해 관리한다.

 

09.기존에 많이 사용하던 데이터 저장 방식은 RDBMS이다. RDBMS의 특징에 과한 설명으로 알맞지 않은 것은?

① Atomicity: 관련된 작업들은 전부 반영되거나 아니면 하나도 반영이 안 되거나 해야 된다는 것을 위미한다(All or Nothing).
② Consistency: DB의 상태가 늘 일관된 상태를 유지해야 됨을 의미한다.
③ Isolation: 여러 작업이 실행될 경우 동시에 수행된 것과 같은 결과를 내야함을 의미한다.
④ Durability: 일단 작업이 완료되었다고 리포팅이 되었다면 그게 DB에 영구적으로 반영이 되어야 함을 의미한다.

Isolation: 동시에 수행되어도 "순차적"으로 실행된 것과 같은 결과를 내야함

 

12. NoSQL의 유형별 종류로 옳기 짝지어진 것을 고르시오.

① Document-Oriented: Oracle, Berkeley DB, Voldemort
② Key-Value: Redis, Hyper Table
③ Column-Oriented: Cassandra, Google BigTable
④ Graph: Neo4j, HBase

 

 

15. 다음 중 구글파일시스템(GFS)에 대한 설명으로 적절한 것은?

가) 대량의 서버를 연결해 데이터에 대한 접근이 효율적이고 안정적인 대규모 클러스터 서비스 플랫폼의 기반 파일시스템이다.

나) 클라이언트에서 파일 읽기/쓰기 동작을 요청하는 Application, 자체 인터페이스 지원하다.

다) 로컬에 청크 저장, 클라이언트에서 입출력 요청 시 처리, 주기적으로 청크 서버의 상태를 메시지로 마스터에 전달한다.

라) GFS는 Client, Master, Slave, Chunk Server로 구성되어 있다.

① 가, 나
② 가, 다, 라
③ 가, 나. 다
④ 나, 라

GFS: Client, Master, Chunk Server

 

16. 다음 데이터 저장 기술에 관한 설명에 해당하는 것으로 올바른 것은?

아파치 하둡 프로젝트의 분산파일시스템으로 아피치 너치 Apache Nutch(확장 가능한 오픈소스 웹 크롤러 소프트웨어 프로젝트)라는 웹 검색엔진 프로젝트를 위한 하부 구조를 위해서 만들어진 저장 기술이다.

① HBase
② HDFS
③ Cassandra
④ GFS

 

17. 다음 빅데이터 저장 기술 제품 중 특징이 다른 것은?

① VoltDB
② MS-SQL
③ MySQL
④ NAS

NAS는 네트워크 구성 저장 시스템 기술