빅데이터분석기사

[빅데이터분석기사 필기] 빅데이터 기술 및 제도

Jia H 2025. 2. 22. 00:46

🚀 빅데이터 플랫폼

빅데이터 라이프 사이클

라이프 사이클 설명 주요 기술
원천데이터
(데이터 소스)
수집 가능한 시스템을 식별, 데이터 정의 내ㅔ부 데이터(수집 용이한 정형 데이터)
외부 데이터(외부 조직, 데이터 구매)
데이터 수집 내/외부의 여러 환경으로부터 필요 데이터 수집 오픈 API, 크롤링(Crawling), ETL, DBtoDB
데이터 저장 저장/분석/조작/관리 가능한 데이터로 변환 RDBMS, NoSQL, 분산파일시스템, 클라우드
데이터 처리/관리 저장/수집/관리/유통/분석 처리 + 모니터링/스케줄링 실시간 처리, 분산 병렬 처리, 인-데이터베이스
데이터 분석 데이터를 전처리하고 인사이트 도출 통계 기법, 마이닝 기법, 알고리즘
데이터 시각화 시각화하여 연계된 의미와 해석을 용이하게 Python, R, SAS, SPSS

 


🚀 빅데이터 플랫폼의 이해

 

빅데이터 플랫폼의 개요

구분 구분 설명
구축 범위 소프트웨어 인프라 구축 빅데이터 분석에 필요한 수집, 관리, 분석, 가시화 등 이용자 환경에 대한 소프트웨어 활용
하드웨어 인프라 구축 빅데이터의 용량 및 처리, 분석 작업에 대한 부하(필요 동작 및 자원) 등을 감안
컴퓨팅 부하 대용량 ㅈ데이터를 처리하기 위한 컴퓨팅 자원(CPU, 메모리 저장소 등)
저장 부하 데이터 처리 과정의 입력/중간/출력 데이터에서 발생하는 자원
네트워크 부하 분산 컴퓨터 노드 간의 통신에서 필요한 자원(대역폭, 트래픽 수용 등)
주요 기능 실시간 빅데이터 처리 가능 기존 일관 처리 방식이 아닌, 온라인 상태에서 빅데이터의 요청과 응답을 즉시 처리
분산 병렬 처리 가능 분산되어 존재하는 컴퓨팅 환경을 동시에 황용하여 데이터 처리 및 분석 기능
대규모 트랜잭션 지원 트랜잭션 처리가 가능한 RDBMS 및 확장성과 고성능 기능의 구현이 가능한 NoSQL로
파일 관리 효율화 파일 형태에 따라 블록/파일/오브젝트 스토리지의 활용으로 저장공간의 효율성 확보

 

 

빅데이터 플랫폼의 3계층

- 소프트웨어 계층

- 플랫폼 계층

- 인프라스트럭처 계층

 

하둡 에코 시스템

하둡 코어 프로젝트 HDFS(분산 데이터 저장), MapReduce(분산 병렬 처리)
하둡 서브 프로젝트 그 외 프로젝트(수집, 저장, 분석, 관리, 데이터 마이닝 등)

🚀 빅데이터 플랫폼 주요 기술

 

수집 기술

기술 설명
DB to DB 현재의 데이터베이스에서 다른 데이터베이스에 접근할 수 있도록 링크를 걸어 데이터를 연동하는 방식
EAI (Enterprise Application Integration) 기업 내 여러 이기종 시스템과 애플리케이션 간의 데이터를 실시간으로 연동하는 기술
ETL (Extract, Transform, Load) 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 과정으로, 데이터 웨어하우스 구축에 주로 활용
CDC (Change Data Capture) 데이터베이스의 변경 사항을 실시간으로 감지하고 캡처하여 다른 시스템에 전달하는 기술
로그 수집 (Log Collection) 서버, 애플리케이션, 네트워크 장비 등의 로그 데이터를 실시간으로 수집하는 기술 (예: Fluentd, Logstash)
IoT 데이터 스트리밍 센서 및 IoT 기기에서 발생하는 대량의 데이터를 실시간으로 수집 및 처리하는 기술 (예: MQTT, Kafka)
웹 스크래핑 (Web Scraping) 웹사이트에서 필요한 데이터를 자동으로 크롤링하여 수집하는 기술 (예: BeautifulSoup, Scrapy)
API 기반 데이터 수집 오픈 API 또는 내부 API를 활용하여 데이터를 주기적으로 또는 실시간으로 수집하는 방식
메시징 큐 (Message Queue) 분산 시스템에서 데이터 수집 및 처리를 위한 메시지 브로커 기술 (예: Apache Kafka, RabbitMQ)

 

 

✅ 저장기술

구분 특징 종류
RDBMS Relational DataBase Management System
정형 데이터 중심의 관계형 데이터를 저장하거나, 수정하고 관리할 수 있게 해주는 데이터베이스
SQL 문장을 통하여 데이터 베이스의 생성, 수정 및 검색 등 서비스를 제공
Oracle, MySQL, Maria DB
NoSQL Not-Only SQL
비관계형 데이터 저장소로, 테이블 스키마가 고정되지 않고, 테이블 간 조인 연산을 지원하지 않으며, 수평적 확장이 용이
MongoDB, Redis, Voldemort, Cassandra
분산파일시스템 Distributed File System
분산된 서버의 로컬 디스크에 파일을 저장하고 파일의 읽기, 쓰기 등과 같은 연산을 운영체제가 아닌 API를 제공하여 처리하는 파일시스템
대규모 데이터 저장소 x86서버의 CPU, RAM 드을 사용하므로 장비 증가에 따른 성능 향상 용이
수TB~수백PB 이상의 데이터 저장 지원 용이
GFS(Google File Systemm)
HDFS(Hadoop File System)
CephFS(Ceph File System)
클라우드 파일 저장시스템 클라우드 컴퓨팅 환경에서 메타 정보를 이용하여 데이터를 저장할 수 있는 오브젝트 스토리지 AWS S3, Google Cloud 객체 스토리지

 

 

✅ 처리/관리 기술

처리/관리 기술 기술 설명
하둡 대용량 데이터처리 분석을 위한 대규모 분산 컴퓨팅 지원 프레임워크
HDFS 아파치 하둡 프로젝트의 분산파일시스템. 하나의 네임노드, 하나 이상의 보조 네임노드, 다수의 데이터 노드
맵리듀스 저장된 파일을 분산된 서버의 자원을 이용하여 빠르게 분석 및 병렬 철하는 프레임워크
맵리듀스의 처리 부분을 개선하여 리소스 매니저와 노드 매니저로 구성
스파크 하둡의 맵리듀스에서 병목 현상으로 지목되던 디스크 I/O 비용을 효율화
스톰 실시간 데이터 스트리밍 처리를 위한 분산형 실시간 연산 시스템
우지 하둡 워크플로우를 관리하는 스케줄링 및 조정 도구
주키퍼 분산 환경에서 노드 간의 동기화, 설정 관리, 그룹 서비스 등을 지원하는 코디네이션 서비스
암바리 하둡 클러스터를 쉽게 설치, 관리, 모니터링할 수 있도록 도와주는 웹 기반 관리 도구
피그 대용량 데이터 집합을 분석하기 위한 플랫폼, Pig Latin 언어 사용(맵리듀스 사용 스크립트 언어)
에어플로우 데이터 파이프라인을 구축하고 워크플로우를 자동화하는 오케스트레이션 도구

 

 

✅ 분석, 시각화 기술

분석, 시각화 기술 기술 설명 분류
텍스트 마이닝 대큐모 텍스트로부터 의미 잇는 정보를 추출, 분석하는 기술 분석
시맥틱 시맨틱 메타 데이터 자동 추출, 시맨틱 네으워크 생성, 지식 베이스 구축, 온톨로지의 활용, 놀리 및 통계적 추론 등을 포함하는 의미 기반 분석 기술 분석
기계학습 기계학습은 충분한 학습 데이터로부터 모델을 생성하고, 해당 모델을 통해 대용량 데이터를 자동 분석, 귀납 추론하는 시스템 분석
SPSS IBM에서 상용화한 사회과학 자료분석을 위해 고안된 통계 분석 전용 ㅍ로그램으로 라이센스가 필요
사용법이 간편하여 데이터 획득에서부터 리포팅(Reporting)까지 전 과정을 메뉴와 대화상자를 통해 수행
분석
R 데이터 분석을 위한 통계 분석 기법과 알고리즘, 데이터 시각화 기능을 지원하는 오픈소스 프로그램으로 빅데이터와 관련된 분석을 위한 툴(Tools)로 주목 분석/시각화
SAS 대규모 데이터 분석을 지원하는 통계 및 머신러닝 전문 소프트웨어로, 강력한 데이터 처리 및 모델링 기능을 제공 분석
Excel 데이터 정리, 통계 분석, 차트 시각화 등의 기능을 제공하는 스프레드시트 프로그램으로, 기본적인 데이터 분석 및 시각화에 활용 가능 분석
머하웃 아파치 소프트웨어 재단의 한 프로젝트로서 분산 처리가 가능하고 확장성을 가진 기계학습용 라이브러리 분석
타조 하둡 기반의 대용량 데이터의 분산 분석을 지원하는 플랫폼 분석
Python 동적 타이핑 범용 프로그래밍 언어
순수한 프로그램 언어 기능 외의 다른 언어로 쓰여진 모듈들을 연결하는 풀언어(Glue language)로 자주 이용됨
분석/시각화
Python 라이브러리 Numpy 분석/시각화
Scipy
SKlearn
Pandas
Matplotlib

 


🚀 빅데이터와 인공지능

2.1 인공지능의 이해

✅ 인공지능 분류

구분 분류 상세 설명
지적 수준 약 인공지능 특정 영역에 한정되어 활용 가능한 인공지능
강인공지능 다수의 영역에서 활용 가능한 인공지능
초인공지능 인간의 지적능력 및 인식능력 + 인간 이상의 능력을 보유
알고리즘의
구현 수준
학습지능 지식 확보를 위한 알고리즘 연구(머신러닝, 추론/지식 표현)
단일지능 시각, 청각, 언어 등 한 종류 입력을 가지고 지식을 확보
복합지능 여러 형태의 입력을 통합하여 이해, 판단하는 기술(행동/소셜지능, 상황/감정이해)

 

✅ 인공지능의 부각 이유

- 빅데이터

- 인공지능 기술 발전(딥러닝 등)

- 컴퓨터 환경 진화(클라우드, GPU)

 

✅ 머신러닝과 딥러닝

인공지능 컴퓨터가 인간의 지능적인 행동을 모방할 수 있도록 하는 소프트웨어
머신러닝 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야
딥러닝 능동적인 비지도학습이 결합되어 컴퓨터가 마치 사람처럼 스스로 학습할 수 있는 인공지능

 

✅ 머신러닝의 유형

유형 분류기준 알고리즘
지도학습 모든 입력 데이터에 대해 정확한 답(Label)을가지고 모델을 학습하는 방법
분류
(Classification)
 
 
회귀
(Regression)
 
   
비지도학습 Label 없이 학습 데이터만 입력하여 모델 스스로 패턴 기억/군집화
군집화
(Clustering)
유사한 특성이나 드룹으로 그룹핑
계층군집화(Hierarchical Clustering)
K-평균 군집(K-means Clustering)
SOM(Self-Organizing Map) 등
차원 축소
(Dimension Reduction)
여러 특성을 대표하는 특성으로 축소
주성분분석(PCA, Principal Component Analysis)
요인분석
다차원척도법
연관규칙발견
(Association Rule)
특정 항목(원인) 발생시 다른 항목(결과)이 발생하는 규칙 발견
연관규칙
협업필터링
강화학습 행동 심리학에서 나온 이론으로 분류할 수 있는 데이터가 존재하는 것도 아니고 데이터가 있어도 정답이 따로 정해져있지 않으며 자신이 한 행동에 대해 보상(reward)를 받으며 학습하는 방법
알고리즘 딥 큐러닝, 은닉 마르코프 모델(HMM), 몰테카를로 트리서치(MCTS)
준지도학습 지도학습에서 사용하는 정답이 있는 데이터와 비지도학습에서 사용하는 정답이 없는 데이터를 모두 훈련 데이터로 사용하여 학습하는 방법('어떻게 라벨링을 할 수 있을까'의 관점)
알고리즘 생성적 적대신경망(GAN, Generative Adversarial Networks)

 

✅ 머신러닝 학습의 진화

구분 설명
액티브러닝(Active Learning) 정답(라벨)이 주어지지 않은 데이터를 이용하여 어떤 데이터에 자동으로 정답을 붙일 수 있고, 어떤 데이터에 대해 사람이 꼭 정답을 붙여줘야(중요한 데이터)하는지 필터해주는 방법
퓨샷러닝(Few Shot Learning) 적은 데이터(Few Shot)를 효율적으로 학습하는 문제를 위해 메타러닝 등을 적용
전이학습과 메타러닝은 퓨샷러닝을 위해 고안됨
전이학습
(Transfer Learning)
이미 학습된 모델(Pre Trained Model)의 가중치(파라미터)를 다른 문제 해결을 위한 모델에 재사용하는 방법
메타러닝
(Meta Learning)
서로 다른 타입의 모델들을 사용하여 예측값을 도출하고 이 예측값이 학습 데이터가 되어 '또 다른 모델'을 학습시켜 최종 결과를 도출하는 학습 방법

 

빅데이터와 인공지능의 관계

- 상호 보완적 관계

인공지능(분석, 예측)

빅데이터(신뢰, 현실)


 

개인정보 법/제도

✅ 빅데이터 관련 법

법률명(약칭) 내용
개인정보보호법 개인정보의 처리/보호에 관한 사항을 정하여 개인의 자유와 권리를 보호하고, 나아가 개인의 존엄과 가치를 구혐함을 목적
신용정보의 이용 및 보호에 관한 법률(신용정보법) 신용정보업을 건전하게 육성하고 신용정보의 효율적 이용과 체계적관리를 도모하며 신용 정보의 오용/남용으로부터 사생활의 비밀 등을 적절히 보호함으로써 건전한 신용질서의 확립에 이바지하는 목적
정보통신망 이용 촉진 및 정보보호 등에 관한법률(정보통신망법) 정보통신망의 이용을촉진하고 전보통신서비스를 이용하는 자의 개인정보를 보호함과 아울러 정보통신망을 건전하고 안전하게 이용할 수 있는 환경을 조성하여 국민생활의 향상과 공공복리의 증진에 이바지
데이터 3법 개인정보보호법, 정보통신망법, 신용정보법 개정안을 일컫는 말로, 이 3법 개정안은 개인정보보호에 관한 법이 소관 부처별로 나뉘어 있어 발생하는 중복규제를 없애 개인과기업이 정보를 활용할 수 있는 폭을 넓히기 위해 마련
공공데이터의 제공 및 이용 활성화에 관한 법률(공공데이터법) 공공기관이 보유한공공데이터를 개방(제공)하여 '국민의 편익 향상과 일자리 창출'을 위해 제정된 벌률
기계 판독이 가능한 형태의 최소 요건을 충족하면 공공데이터의 개방이 가능하지만, 국가에서는 오픈포맷(REST기반 Open API) 형태로 공공데이터를 개방할 것을 권장
국가공간정보기본법 공간정보체계를 효율적으로 구축하고 활용/관리하여 국토 및 자원을 합리적으로이용하기 위해 제정한 법률
공개가 제한되는 공간정보도 공간정보사업자나 위치정보사업자에게 제공할 수 있게 됨
산업디지털전환촉진법 산업 전반의 디지털 전환을 지원하고 산업 데이터의 활용을 확대하기 위해 산업 데이터 사용 수익권을 보장한 법
지능보호화기본법 정보화 혁명을 성공적으로 뒷받침한 '국가정보화 기본법'을 전면 개정하여 4차 산업혁명 지원을 위한 법국가적 추진체계를 마련함으로써 데이터/인공지능 등 핵심 기술 기반과 산업생태계를 강화하는 것을 목적으로 하는 법률
데이터산업징흥 및 이용촉진 기본법(데이터산업법) 데이터의 생산, 거래 및 활용 촉진에 관하여 필요한 사항을 정함으로써 데이터로부터 경제적 가치를 창출하고 데이터 산업 발전의 기반을 조성하여 국민생활의 향상과 국민경제의 발전에 이바지함을 목적으로하는 법률
EU-GDPR(General Data Protection Regulation) 유럽연합 회원국에 동일하게 적용되는 개인정보보호 일반법으로 개인정보의 암호화나 가명처리 등의 안전조치 마련, 독립적인 감독기구 운영 등을 요구

 

 

✅ 빅데이터 관련 제도/정책

제도, 정책 내용
디지털 뉴딜(한국판 뉴딜) 데이터 수집, 가공, 거래, 활용 기반을 강화하여 데이터 경제를 가속화하고, 5G 전국망을 통한 전 산업 5G와 AI 융합을 확산시키는 것
디지털 플랫폼 정부 최신 디지털 기술을 활용하여 다양한 데이터를 통합하고 연계하고 분석하는 디지털 플랫폼을 기반으로 국민과 기업과 정부가 함께 사회문제를 해결하고 새로운 가치를 창출하는 정부를 구현
인공지능법, 제도, 규제 정비 로드맵 혁신과 포용이 조화로운 인공지능 법/제도
데이터 산업 진흥을 위한 기본법 제정
데이터관리업에 대한 법적 근거 마련 등
개인정보 비식별 조치 가이드라인, 가명정보처리 가이드라인 데이터 활용에 필요한 가명처리 기술, 절차, 관리 체계 등을 구체적으로 안내하여 개인정보보호는 더욱더 강화하고 안전한 데이터 활용 기반을 마련
마이데이터 개인이 정보 관리의 주체가 되어 능동적으로 본인의 정보를 관리하고, 본인의 의지에 따라 신용 및 자산 관리 등에 전보를 활용하는 일련의 과정

 

개인정보 법/제도

✅ OECD 8원칙

OECD 8원칙 개인정보보호법
수집제한의 원칙 목적에 필요한 최소한 번위 안에서 적법하고 정당하게 수집
정보정확성의 원칙 처리 목적 범위 안에서 정확성, 안정성, 최신성 보장
목적명확화의 원칙 처리 목적의 명확화
이용제한의 원칙 필요 목적 범위 안에서 적법하게 처리, 목적 외 활용 금지
안전보호의 원칙 정보주체의 권리침해 위험성 등을 고려, 안전성 확보
공개의 원칙 개인정보 처리 사항 공개
개인참가의 원칙 열람청구권 등 정보주체의 권리 보장
책임의 원칙 개인정보처리자의 책임 준수, 실천, 신뢰성 확보 노력

 

 

✅ 데이터 3법의 이해

데이터 3법의 구분 주요 내용 설명
개인정보보호법 가명정보 도입 및 활용 특정 개인을 식별할 수 없게 안정 조치를한 개인정보 데이터를 제품, 서비스 개바레 활용 가능
개인정보, 가명정보, 가명정보처리, 익명정보에 대한 구분
개인정보보호위원회
컨트롤 타워 역할 강화
행정안전부, 방송통시뉘원회, 금융위원회 등에 분산된 관리, 감독 기능을 국무총리 소속 중앙행정기관인 개인정보위원회로 원일화
개인정보 오남용 방지 위한 책임성 강화 데이터 활용시 지켜야 할 안전조치 규정을 어길 땐 전체 매출액의 3%에 해당하는 과징금 부과
정보통신망법 법체계 일원화 개인정보보호법과 정보통신망법에 산재된 법 체계를 개인정보보호법으로 이관
온라인 개인정보보호 주관 기관 변경 온라인상 개인정보보호 관련 규제와 감독주체를 방송통시뉘원회에서 개인정보보호위원회로 변경
신용정보법 가명정보 신용정보주체 동의 없이 이용 및 제공 가능 통계 작성, 과학적 연구, 공익적 보존 드을 위해 가명 정보를 신용 정보주체의 동의 없이 시용하거나 제공할 수 있게 함
가명정보의 금융분야 빅데이터 분석 및 이용을 위한 법적 근거 마련
금융분야에서 빅데이터 분석 및 이용 활성화하도록 규정함

 


개인정보 활용

가명정보처리 가이드라인

✅ 개인정보, 가명정보, 익명정보 비교

구분 설명 수행 내용
개인정보 특정 개인에 관한 저보
개인을 알아볼 수 있게 하는 정보
정보주체로부터 사전에 개인정보 활용에 대한 구체적인 동의를받은 범위 내에서 활용 가능
가명정보 추가 정보의 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보 다음 3가지 목적으로 동의 가명정보 없이 활용 가능
1.통계 작성(상업적 목적 포함)
2. 연구(산업적 연구 포함)
3. 공익적 기록 보존 목적 등
익명정보 더 이상 개인을 알아볼 수 없게 조치한 정보 개인정보가 아니기 때문에 제한 없이 활용 가능

 

 

✅ 가명처리 절차

처리단계 설명
1단계
사전준비
가명정보 처리목적을 명확히 설정하고 가명정보 처리 목적의 적합성 검토 및 계약서, 개인정보 처리방침, 내부 관리계획 등 필요한 서류 작성
2단계
위험성 검토
대상 성정, 위험성 검토
3단계
가명처리
항목별 위험도 측정이 완료되면 이를 고려하여 항목별 가명처리 방법과 수준을 정의하고, 이에 따라 가명처리 수행
4단계
적정성 검토
1,2,3단계의 가명처리에 대해 결과 적정성을 최종 검토
5단계
안전한 관리
기술적/관리적/물리적 안전조치 등 사후관리를 이행해야 함

 

 

📌 마이데이터

1. 개인정보 정보이동권 행사: 개인이 기업(기관)에게 정보 제공 요구

2. 개인의 요청에 따라 기업은 마이데이터 사업자에게 데이터 개방

3. 개인정보 확인 및 활용: 해당 데이터를 기반으로 다양한 서비스 제공