빅데이터분석기사

[빅데이터분석기사 필기] 고급 데이터 탐색

Jia H 2025. 3. 1. 12:05

시공간 데이터 탐색

- 시공간 데이터(Spatio-Temporal Data): 공간적 속성 + 비공간적 속성의 이산적인 변화 등 복잡

- 데이터 마이닝 등을 이용하여 대용량 데이터에 존재하는 유용한 정보 탐색, 시각화

 

시간 데이터 탐색

- 시간데이터(Temporal Data): 연도별(Annual), 분기별(Quarterly), 월별(Monthly), 일별(Daily), 시간별(Hourly) 등

- 과거 시계열 자료의 패턴을 분석하여 예측(Forecast)이나, 추세(Trend), 계절성(Seasonality), 주기(Cycle) 등 확인

 

공간 데이터 탐색 및 시공간 데이터 탐색

- 공간 데이터(Spatial Data): 지도 및 지도 위에 표현이 가능하도록 위치, 분포 등을 알 수 있는 정보

- 지하, 지상 등 포함해 지도 위에 크기, 모양, 선의 굵기, 색상 등으로 구분해 시각화하여 직관적으로 획득 혹은 인사이트

 

시공간 데이터 예시와 GIS 설명

- 지도 데이터(지도 빈도, 비율, 분포를 표기한 데이터), 패널 데이터(특성 개체를 추적하여 얻은 데이터), 격자 데이터(반복되는 점들의 규칙적 구조를 표기한 데이터)

- GIS(Geographic Information System): 넓은 의미에서 인간의 의사결정능력 지원에 필요한 지리정보의 관측과 수집에서부터 보존과 분석, 출력에 이르기까지의 일련의 조작을 위함 정보시스템

- GIS는 지리적 위치를 갖고 있는 대상에 대한 위치자료(Spatial Data)와 속성자료(Attribute Data)를 통합/관리하여 지도, 도표 및 그림들과 같은 여러 형태의 정보를 제공

 

다변량 데이터의 이해

- 변량(Variable): 변수가 가지는 특성, 성질을 숫자 또는 문자로 나타낸 값

- 통계학에서 다중(Multiple)은 독립변수가 여러개라는 뜻, 단변량(일변량)은 종속변수가 한 개이며, 다변량은 단변량(일변량)에 반대되는 것으로 종속변수가 여러 개(두 개 이상)라는 뜻으로 정의

 

다변량 변수의 구분

구분 단변량(일변량) 이변량 다변량
개념 하나의 변수만을 측정하여 얻게 되는 변수의 값 두 개의 변수를 측정하여 얻어지는 변수의 값 두 개 이상의 변수를 측정하여 얻어지는 변수의 값
변수 1개의 변수 2개의 변수 2개 이상의 변수
목적 데이터 요약 및 패턴 확인 두 변수 간의 관계를 분석 유사성과 근접성을 확인
분석 기법 평균, 분산, 막대그래프, 선그래프 등 상관관계 분석, 산점도, 회귀분석 등 판별분석, 주성분분석 등
사례 키, 몸무게, 나이 등 키와 몸무게의 관계 등 감기가 걸린 원인은 나이, 성별, 몸무게와 관련이 있을까?

 

 

통계 기반 다변량 데이터 탐색 기법

- 통계 기반 다변량 탐색 기법: 관계 규명(인과관계, 상관관계 등)

- 변수들 간의 상관관계를 이용하여 변수를 축소, 또는 개체들을 분류하는데 관련된 분석 기법

 

다변량 데이터 분석 기법

구분 설명 분석 기법
변수들 간의 관계 변수들 간의 인과관계, 상관관계 및 평균과 분산 등의 차이를 탐색하는 방법 다중회귀분석(Multiple Regression), 로지스틱회귀분석(Logistic Regression), 다변량분산분석(Multivariable ANOVA), 상관관계 분석, 교차분석 등
데이터의 차원 축소 변수들 간의 상관관계를 분석하여 가지고 있는 의미를 유지하면서(정보 손실 최소화) 변수를 요약하고자 할 때 사용하는 방법 주성분분석(PCA), 요인분석(FA), 정준상관분석(CA: Canonical Analysis)
케이스 차원 축소
(개체 분류)
변수들이 가지는 값들의(개체들의) 유사성을 이용하여 분류하고자 할 때 사용하는 방법 군집 분석, 판별분석 다차원척도법(MDS: Multi-Dimensional Scaling) 등

 

 

변수들 간의 관계 분석 기법

- 변수들 간의 인과관계, 상관관계 및 평균과 분산 등의 차이를 탐색하는 방법

다변량 변수 분석 기법 설명 사례
다중회귀 분석 연속형 종속변수와 두 개 이상의 연속형 독립변수 간에 관련성이 있다고 가정되는 연구 문제에 적합한 분석 방법
다수의 독립변수의 변화에 따른 종속변수의 변화를 예측
범죄율, 방의 수, 재산, 교육수준 등을 요인으로 한 소유 주택가격 예측
로지스틱 회귀 종속변수가 이진(Binary, Dichotomous) 변수이거나 순서형 변수(범주)인 경우 사용되는 회귀분석 방법 통신사의 약정 잔여기간, 사용요금, 서비스 유지기간 등을 요인으로 타 통신사로 번호이동할 것인지(1), 기기변경(0)으로 남을 것인지 판단
다변량분산분석 두 개 이상의 연속형 종속변수와 다수의 범주형 독립변수 간의 관련성을 동시에 알아볼 떄 이용되는 통계적 방법 학급(1/2/3/4/5반) 요인과 성별(여,남) 요인에 따른 키(독립변수) 차이 분석
상관관계분석 두 연속형 변수 간의 선형적 관계(비례식이 성립되는 관계)를 분석하는 방법 몸무게 변수와 키 변수의 비례적 관계 확인
교차분석 2개 또는 그 이상의 범주 변수들에 대해 한 변수의 범주와 다른 변수의 범주를 교차시켜 각 빈도를 분석하는 방법 영양제 복용/미복용 그룹에 대한 감기 발생/미발생 여부의 동질성과 독립성 확인

 

데이터의 차원축소 기법

- 변수들 간의상관관계를 분석하여 가지고 있는 의미를 유지하면서(정보 손실 최소화) 변수를 요약

차원축소 기법 설명 사례
주성분분석(PCA) 고차원 공간(다변량 변수)의 표본들을 선형 연관성이 없는 저차원(새로운 변수) 공간으로 변환하는 기법
여러 변수들의 선형결합으로 이루어진 새로운 변수인 주성분을 만들어 기존 변수들이 가지고 있는 의미를 포함하여 차원축소
습도, 강수량 혹은 풍속, 태풍 각각의 요인들 중 관련성 있는 요인인 습도와 강수량, 풍속과 태풍(풍속이 빠르면 태풍)을 2개의 변수로 축소
요인분석(FA) 데이터에 관찰할 수 있는 잠재적 변수가 존재한다고 가정하고, 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재요인을 도출하고 데이터 구조를 해석하는 기법(PCA 포함) 서로 관련된 변수를 합치거나 중복된 변수를 제거하여 차원축소
정준상관분석(CCA) 두 개의 변수 집단 간의 선형성 상관관계를 파악하고 양으로 표현하고자 할 떄 사용하는 분석 기법
다차원에 놓인 두 변수 집단 간의 관계를 저차원의 정준변수쌍으로 전환하여 관계를 설명
(여러 개 변수와 여러 개 변수에 대한 상관관계 확인)
온도, 농도, 시간 변수를 요인으로 화학반응을 관찰하여 변하지 않고 남은 양과 반응 후 생성된 양을 분석

 

 

케이스 차원축소 기법(개체분류)

- 변수들이 가지는 값들의(개체들의) 유사성을 이용하여 분류

차원축소 기법 설명 사례
다차원척도법(MDS) 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들의 집단화를 시각적으로 표현하는 분석 방법 각 도시별 위치에 따른 유사성 분석
판별분석 선형판별분석(Linear Discriminant Analysis): 데이터 분포를 학습해 결정경계(Decision Boundary)를 만들어 데이터를 분류(Classification)하는 모델
주성분분석법(PCA)은 데이터의 최적 표현의 견지에서 데이터를 축소하는 방법인데 반하여, 선형판별분석법(LDA)는 데이터의 최적 분류의 견지에서 데이터를 축소하는 방법
고객의 카드 사용금액, 사용 업종, 사용 장소 등을 특성변수로 하고, 카드 부정 사용을 예측

 

 

시각화 기반 다변량 데이터 탐색 방법

1. 산점도행렬(Scatter Matrix)

- 상관관계가 양/음의 방향으로 높음을 알 수 있음

- 대각선 위치는 동일한 변수에 대한 산점도 위치이므로 비워두거나 각 변수의 히스토그램 등으로 표기

 

2. 체르노프페이스(Chernoff Face)

- 다차원 통계 데이터를 사람의 눈, 코, 입, 귀 등 각 부위를 변수로 대체하여 데이터의 속성을 쉽게 파악

 

3. 스몰멀티플즈(Small Multipes)

- 다수의 데이터로 구성된 복잡한 차트를 정보별로 분리한 뒤 매트릭스 형태로 배치

- 차트의 종류는 거의 모든 차트를 적용할 수 있음

 

4. 선버스트차트(Sunburt Chart)와 트리맵(Tree Map)

- 계층 구조로된 다변량 데이터를 분석하는데 적합한 방법법

 

비정형 데이터 탐색의 이해

- 정형 데이터: 미리 정해진 구조에 따라 관계형 데이터베이스 등 정해진 필드에 저장된 데이터

- 비정형 데이터: 미리 정해진 구조가 없고, 정해진 필드에 저장되지 않는 데이터

 

비정형 데이터의 유형

구분 설명
텍스트 트위터, 페이스북 등 소셜 미디어에서의 실시간 대화, 온라인 모바일을 통한 SMS, 이메일 메시지, 블로그, 커뮤니티에서의 게시물, 전문정보, 뉴스기사 등
이미지 인터넷 매체에서 업로딩되는 모든 사진, 그림 등
음성과 영상 음악파일, 유튜브 등과 같은 동영상 전문 웹사이트가 제공하는 영상, UCC, 뉴스 동영상, 애니메이션 등
웹 로그파일 웹 로그, 인터넷 검색 인덱싱, 페이지 뷰 인덱싱, 웹 상에서 모든 흔적들의 데이터 파일

 

 

웹 데이터 탐색

웹 크롤링

- 웹 크롤러(Web Crawler): 조직적, 자동화된 방법으로 인터넷 환경(월드 와이드 웹)을 탐색하는 컴퓨터 프로그램

- 웹 크롤러가 여러 인터넷 사이트의 페이지(문서, HTML 등)를 수집헤서 분류하고 찾아낸 데이터를 저장 후 쉽게 찾을 수 있게 인덱싱하여 저장하는 작업, 스파이더링(Spidering)이라고도 함

 

웹 크롤링과 웹 스크래핑

- 웹 크롤링(Crawling): 자동화 봇인 웹 크롤러가 정해진 규칙에 따라 복수개의 웹 페이지 자체를 브라우징하는 기법

- 웹 스크래핑(Scrapping): 웹 사이트 상의 원하는 부분에 위치한 정보를 추출하여 수집하는 기술

- 정리하면, 정해진 링크를 따라 연결된 페이지를 가지고 오는 것은 웹 크롤링이며 웹 크롤러가 수집하는 페이지가 있을 떄, 추출을 원하는 위치의 데이터를 가져오는 것이 웹 스크래핑이다

 

웹 마이닝

- 웹 마이닝(Web Mining)은 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내는 기법

 

웹 마이닝 유형

구분 설명 데이터 유형
웹 컨텐츠 마이닝
(Web Content Mining)
실제 웹 사이트를 구성하고 있는 페이지로부터 의미 있는 내용을 추출하는 마이닝 기법
온라인에 있는 방대한 웹 데이터(텍스트, 그림, 사운드 등)에서 유용한 정보를 자동으로 찾는 기술
텍스트, 이미지, 영상, 음성 등
웹 구조 마이닝
(Web Structure Mining)
웹 사이트와 웹 페이지의 구조적 요약 정보를 얻기 위한 마이닝 기법
웹사이트의 구조적 정보란, 웹 페이지 사이의 하이퍼링크(hyperlink)를 통한 그래프(graph) 구조를 뜻함
HTML, XML, Hyper Link
웹 사용 마이닝
(Web Usage Mining)
웹 사용자의 사용 패턴을 분석하는 마이닝 기법
웹 사용자의 행동을 접속통계 및 웹 페이지의 이용 패턴을 통해 이해 가능
사용자에게 더욱 친숙하게 페이지를 재구성하거나, 웹 서버 로드밸러스, 사용자별 맞춤형 웹 페이지 구성 등에 이용
사용자 프로파일, 접근로드 등

 

 

텍스트 데이터 탐색

- 텍스트 데이터는 비정형 데이터 중 가장 많은 비중을 차지

- 일반적인 방법은 주요 단어 등의 추출 등 정제 과정을 거쳐 정형화된 데이터 구조로 변환하는 것

- 메타 데이터(Meta Data)로 직접 태그(Tag)하여 사용하기도 함

 

- 텍스트 마이닝: 자연어 처리(NLP: Natural Language Processing) 방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법

- 텍스트 마이닝 수행 절차

 

텍스트 마이닝 절차 상세 설명

절차 설명 기법
텍스트 수집
(정보 검색)
사용자가 원하는 키워드를 기반으로 원하는 정보가 포함된 텍스트 데이터가 들어있는 문서를 탐색하는 과정
사용 목적에 따라 웹 검색, 개인정보 검색, 기업이나 기관/특정 영역 검색 등 세 가지의 형태로 구분됨
크롤링, 말뭉치 확보, Open API 활용, 로그수집기 활용 등
텍스트 전처리 텍스트 수집이 사용자가 필요한 정보와 관련된 텍스트가 들어있는 특정한 문서를 찾는 것인데 반해 텍스트 전처리는 특정 문서로부터 구체적인 정보를 정제하는 과정 토큰화, 불용어 처리, 정제와 정규화, 텍스트 인코딩 등
텍스트 분석 텍스트로부터 의미 있는 추세와 패턴 및 지식을 발견하기 위하여 데이터 마이닝, 머신러닝(기계학습) 등을 반복적으로 수행함으로써 의미 있는 결과를 얻어내는 과정 토픽모델링, 통계적 기법, 데이터 마이닝, 머신러닝 기법, 자연어 처리(NLP) 등
텍스트 시각화 분석된 결과에 대한 의미 분석 혹은 시각적 표현을 위해 사용자 관점에서 통찰력(Insight)를 얻는 과정 워드 클라우드, 소셜네트워크 분석(SNA)