시공간 데이터 탐색
- 시공간 데이터(Spatio-Temporal Data): 공간적 속성 + 비공간적 속성의 이산적인 변화 등 복잡
- 데이터 마이닝 등을 이용하여 대용량 데이터에 존재하는 유용한 정보 탐색, 시각화
시간 데이터 탐색
- 시간데이터(Temporal Data): 연도별(Annual), 분기별(Quarterly), 월별(Monthly), 일별(Daily), 시간별(Hourly) 등
- 과거 시계열 자료의 패턴을 분석하여 예측(Forecast)이나, 추세(Trend), 계절성(Seasonality), 주기(Cycle) 등 확인
공간 데이터 탐색 및 시공간 데이터 탐색
- 공간 데이터(Spatial Data): 지도 및 지도 위에 표현이 가능하도록 위치, 분포 등을 알 수 있는 정보
- 지하, 지상 등 포함해 지도 위에 크기, 모양, 선의 굵기, 색상 등으로 구분해 시각화하여 직관적으로 획득 혹은 인사이트
시공간 데이터 예시와 GIS 설명
- 지도 데이터(지도 빈도, 비율, 분포를 표기한 데이터), 패널 데이터(특성 개체를 추적하여 얻은 데이터), 격자 데이터(반복되는 점들의 규칙적 구조를 표기한 데이터)
- GIS(Geographic Information System): 넓은 의미에서 인간의 의사결정능력 지원에 필요한 지리정보의 관측과 수집에서부터 보존과 분석, 출력에 이르기까지의 일련의 조작을 위함 정보시스템
- GIS는 지리적 위치를 갖고 있는 대상에 대한 위치자료(Spatial Data)와 속성자료(Attribute Data)를 통합/관리하여 지도, 도표 및 그림들과 같은 여러 형태의 정보를 제공
다변량 데이터의 이해
- 변량(Variable): 변수가 가지는 특성, 성질을 숫자 또는 문자로 나타낸 값
- 통계학에서 다중(Multiple)은 독립변수가 여러개라는 뜻, 단변량(일변량)은 종속변수가 한 개이며, 다변량은 단변량(일변량)에 반대되는 것으로 종속변수가 여러 개(두 개 이상)라는 뜻으로 정의
다변량 변수의 구분
구분 | 단변량(일변량) | 이변량 | 다변량 |
개념 | 하나의 변수만을 측정하여 얻게 되는 변수의 값 | 두 개의 변수를 측정하여 얻어지는 변수의 값 | 두 개 이상의 변수를 측정하여 얻어지는 변수의 값 |
변수 | 1개의 변수 | 2개의 변수 | 2개 이상의 변수 |
목적 | 데이터 요약 및 패턴 확인 | 두 변수 간의 관계를 분석 | 유사성과 근접성을 확인 |
분석 기법 | 평균, 분산, 막대그래프, 선그래프 등 | 상관관계 분석, 산점도, 회귀분석 등 | 판별분석, 주성분분석 등 |
사례 | 키, 몸무게, 나이 등 | 키와 몸무게의 관계 등 | 감기가 걸린 원인은 나이, 성별, 몸무게와 관련이 있을까? |
통계 기반 다변량 데이터 탐색 기법
- 통계 기반 다변량 탐색 기법: 관계 규명(인과관계, 상관관계 등)
- 변수들 간의 상관관계를 이용하여 변수를 축소, 또는 개체들을 분류하는데 관련된 분석 기법
다변량 데이터 분석 기법
구분 | 설명 | 분석 기법 |
변수들 간의 관계 | 변수들 간의 인과관계, 상관관계 및 평균과 분산 등의 차이를 탐색하는 방법 | 다중회귀분석(Multiple Regression), 로지스틱회귀분석(Logistic Regression), 다변량분산분석(Multivariable ANOVA), 상관관계 분석, 교차분석 등 |
데이터의 차원 축소 | 변수들 간의 상관관계를 분석하여 가지고 있는 의미를 유지하면서(정보 손실 최소화) 변수를 요약하고자 할 때 사용하는 방법 | 주성분분석(PCA), 요인분석(FA), 정준상관분석(CA: Canonical Analysis) |
케이스 차원 축소 (개체 분류) |
변수들이 가지는 값들의(개체들의) 유사성을 이용하여 분류하고자 할 때 사용하는 방법 | 군집 분석, 판별분석 다차원척도법(MDS: Multi-Dimensional Scaling) 등 |
변수들 간의 관계 분석 기법
- 변수들 간의 인과관계, 상관관계 및 평균과 분산 등의 차이를 탐색하는 방법
다변량 변수 분석 기법 | 설명 | 사례 |
다중회귀 분석 | 연속형 종속변수와 두 개 이상의 연속형 독립변수 간에 관련성이 있다고 가정되는 연구 문제에 적합한 분석 방법 다수의 독립변수의 변화에 따른 종속변수의 변화를 예측 |
범죄율, 방의 수, 재산, 교육수준 등을 요인으로 한 소유 주택가격 예측 |
로지스틱 회귀 | 종속변수가 이진(Binary, Dichotomous) 변수이거나 순서형 변수(범주)인 경우 사용되는 회귀분석 방법 | 통신사의 약정 잔여기간, 사용요금, 서비스 유지기간 등을 요인으로 타 통신사로 번호이동할 것인지(1), 기기변경(0)으로 남을 것인지 판단 |
다변량분산분석 | 두 개 이상의 연속형 종속변수와 다수의 범주형 독립변수 간의 관련성을 동시에 알아볼 떄 이용되는 통계적 방법 | 학급(1/2/3/4/5반) 요인과 성별(여,남) 요인에 따른 키(독립변수) 차이 분석 |
상관관계분석 | 두 연속형 변수 간의 선형적 관계(비례식이 성립되는 관계)를 분석하는 방법 | 몸무게 변수와 키 변수의 비례적 관계 확인 |
교차분석 | 2개 또는 그 이상의 범주 변수들에 대해 한 변수의 범주와 다른 변수의 범주를 교차시켜 각 빈도를 분석하는 방법 | 영양제 복용/미복용 그룹에 대한 감기 발생/미발생 여부의 동질성과 독립성 확인 |
데이터의 차원축소 기법
- 변수들 간의상관관계를 분석하여 가지고 있는 의미를 유지하면서(정보 손실 최소화) 변수를 요약
차원축소 기법 | 설명 | 사례 |
주성분분석(PCA) | 고차원 공간(다변량 변수)의 표본들을 선형 연관성이 없는 저차원(새로운 변수) 공간으로 변환하는 기법 여러 변수들의 선형결합으로 이루어진 새로운 변수인 주성분을 만들어 기존 변수들이 가지고 있는 의미를 포함하여 차원축소 |
습도, 강수량 혹은 풍속, 태풍 각각의 요인들 중 관련성 있는 요인인 습도와 강수량, 풍속과 태풍(풍속이 빠르면 태풍)을 2개의 변수로 축소 |
요인분석(FA) | 데이터에 관찰할 수 있는 잠재적 변수가 존재한다고 가정하고, 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재요인을 도출하고 데이터 구조를 해석하는 기법(PCA 포함) | 서로 관련된 변수를 합치거나 중복된 변수를 제거하여 차원축소 |
정준상관분석(CCA) | 두 개의 변수 집단 간의 선형성 상관관계를 파악하고 양으로 표현하고자 할 떄 사용하는 분석 기법 다차원에 놓인 두 변수 집단 간의 관계를 저차원의 정준변수쌍으로 전환하여 관계를 설명 (여러 개 변수와 여러 개 변수에 대한 상관관계 확인) |
온도, 농도, 시간 변수를 요인으로 화학반응을 관찰하여 변하지 않고 남은 양과 반응 후 생성된 양을 분석 |
케이스 차원축소 기법(개체분류)
- 변수들이 가지는 값들의(개체들의) 유사성을 이용하여 분류
차원축소 기법 | 설명 | 사례 |
다차원척도법(MDS) | 개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들의 집단화를 시각적으로 표현하는 분석 방법 | 각 도시별 위치에 따른 유사성 분석 |
판별분석 | 선형판별분석(Linear Discriminant Analysis): 데이터 분포를 학습해 결정경계(Decision Boundary)를 만들어 데이터를 분류(Classification)하는 모델 주성분분석법(PCA)은 데이터의 최적 표현의 견지에서 데이터를 축소하는 방법인데 반하여, 선형판별분석법(LDA)는 데이터의 최적 분류의 견지에서 데이터를 축소하는 방법 |
고객의 카드 사용금액, 사용 업종, 사용 장소 등을 특성변수로 하고, 카드 부정 사용을 예측 |
시각화 기반 다변량 데이터 탐색 방법
1. 산점도행렬(Scatter Matrix)
- 상관관계가 양/음의 방향으로 높음을 알 수 있음
- 대각선 위치는 동일한 변수에 대한 산점도 위치이므로 비워두거나 각 변수의 히스토그램 등으로 표기
2. 체르노프페이스(Chernoff Face)
- 다차원 통계 데이터를 사람의 눈, 코, 입, 귀 등 각 부위를 변수로 대체하여 데이터의 속성을 쉽게 파악
3. 스몰멀티플즈(Small Multipes)
- 다수의 데이터로 구성된 복잡한 차트를 정보별로 분리한 뒤 매트릭스 형태로 배치
- 차트의 종류는 거의 모든 차트를 적용할 수 있음
4. 선버스트차트(Sunburt Chart)와 트리맵(Tree Map)
- 계층 구조로된 다변량 데이터를 분석하는데 적합한 방법법
비정형 데이터 탐색의 이해
- 정형 데이터: 미리 정해진 구조에 따라 관계형 데이터베이스 등 정해진 필드에 저장된 데이터
- 비정형 데이터: 미리 정해진 구조가 없고, 정해진 필드에 저장되지 않는 데이터
비정형 데이터의 유형
구분 | 설명 |
텍스트 | 트위터, 페이스북 등 소셜 미디어에서의 실시간 대화, 온라인 모바일을 통한 SMS, 이메일 메시지, 블로그, 커뮤니티에서의 게시물, 전문정보, 뉴스기사 등 |
이미지 | 인터넷 매체에서 업로딩되는 모든 사진, 그림 등 |
음성과 영상 | 음악파일, 유튜브 등과 같은 동영상 전문 웹사이트가 제공하는 영상, UCC, 뉴스 동영상, 애니메이션 등 |
웹 로그파일 | 웹 로그, 인터넷 검색 인덱싱, 페이지 뷰 인덱싱, 웹 상에서 모든 흔적들의 데이터 파일 |
웹 데이터 탐색
웹 크롤링
- 웹 크롤러(Web Crawler): 조직적, 자동화된 방법으로 인터넷 환경(월드 와이드 웹)을 탐색하는 컴퓨터 프로그램
- 웹 크롤러가 여러 인터넷 사이트의 페이지(문서, HTML 등)를 수집헤서 분류하고 찾아낸 데이터를 저장 후 쉽게 찾을 수 있게 인덱싱하여 저장하는 작업, 스파이더링(Spidering)이라고도 함
웹 크롤링과 웹 스크래핑
- 웹 크롤링(Crawling): 자동화 봇인 웹 크롤러가 정해진 규칙에 따라 복수개의 웹 페이지 자체를 브라우징하는 기법
- 웹 스크래핑(Scrapping): 웹 사이트 상의 원하는 부분에 위치한 정보를 추출하여 수집하는 기술
- 정리하면, 정해진 링크를 따라 연결된 페이지를 가지고 오는 것은 웹 크롤링이며 웹 크롤러가 수집하는 페이지가 있을 떄, 추출을 원하는 위치의 데이터를 가져오는 것이 웹 스크래핑이다
웹 마이닝
- 웹 마이닝(Web Mining)은 웹에서 발생하거나 웹 사이트에 저장한 데이터를 대상으로 유용한 패턴을 찾아내는 기법
웹 마이닝 유형
구분 | 설명 | 데이터 유형 |
웹 컨텐츠 마이닝 (Web Content Mining) |
실제 웹 사이트를 구성하고 있는 페이지로부터 의미 있는 내용을 추출하는 마이닝 기법 온라인에 있는 방대한 웹 데이터(텍스트, 그림, 사운드 등)에서 유용한 정보를 자동으로 찾는 기술 |
텍스트, 이미지, 영상, 음성 등 |
웹 구조 마이닝 (Web Structure Mining) |
웹 사이트와 웹 페이지의 구조적 요약 정보를 얻기 위한 마이닝 기법 웹사이트의 구조적 정보란, 웹 페이지 사이의 하이퍼링크(hyperlink)를 통한 그래프(graph) 구조를 뜻함 |
HTML, XML, Hyper Link |
웹 사용 마이닝 (Web Usage Mining) |
웹 사용자의 사용 패턴을 분석하는 마이닝 기법 웹 사용자의 행동을 접속통계 및 웹 페이지의 이용 패턴을 통해 이해 가능 사용자에게 더욱 친숙하게 페이지를 재구성하거나, 웹 서버 로드밸러스, 사용자별 맞춤형 웹 페이지 구성 등에 이용 |
사용자 프로파일, 접근로드 등 |
텍스트 데이터 탐색
- 텍스트 데이터는 비정형 데이터 중 가장 많은 비중을 차지
- 일반적인 방법은 주요 단어 등의 추출 등 정제 과정을 거쳐 정형화된 데이터 구조로 변환하는 것
- 메타 데이터(Meta Data)로 직접 태그(Tag)하여 사용하기도 함
- 텍스트 마이닝: 자연어 처리(NLP: Natural Language Processing) 방식을 이용하여 대규모 문서에서 정보 추출, 연계성 파악, 분류 및 군집화, 요약 등을 통해 데이터에 숨겨진 의미를 발견하는 기법
- 텍스트 마이닝 수행 절차
텍스트 마이닝 절차 상세 설명
절차 | 설명 | 기법 |
텍스트 수집 (정보 검색) |
사용자가 원하는 키워드를 기반으로 원하는 정보가 포함된 텍스트 데이터가 들어있는 문서를 탐색하는 과정 사용 목적에 따라 웹 검색, 개인정보 검색, 기업이나 기관/특정 영역 검색 등 세 가지의 형태로 구분됨 |
크롤링, 말뭉치 확보, Open API 활용, 로그수집기 활용 등 |
텍스트 전처리 | 텍스트 수집이 사용자가 필요한 정보와 관련된 텍스트가 들어있는 특정한 문서를 찾는 것인데 반해 텍스트 전처리는 특정 문서로부터 구체적인 정보를 정제하는 과정 | 토큰화, 불용어 처리, 정제와 정규화, 텍스트 인코딩 등 |
텍스트 분석 | 텍스트로부터 의미 있는 추세와 패턴 및 지식을 발견하기 위하여 데이터 마이닝, 머신러닝(기계학습) 등을 반복적으로 수행함으로써 의미 있는 결과를 얻어내는 과정 | 토픽모델링, 통계적 기법, 데이터 마이닝, 머신러닝 기법, 자연어 처리(NLP) 등 |
텍스트 시각화 | 분석된 결과에 대한 의미 분석 혹은 시각적 표현을 위해 사용자 관점에서 통찰력(Insight)를 얻는 과정 | 워드 클라우드, 소셜네트워크 분석(SNA) |
'빅데이터분석기사' 카테고리의 다른 글
[빅데이터분석기사 필기] 기술통계(1) (0) | 2025.03.02 |
---|---|
[빅데이터분석기사 필기] 고급 데이터 탐색 출제예상문제 오답노트 (0) | 2025.03.01 |
[빅데이터분석기사 필기] 데이터 탐색 기초 출제예상문제 오답노트 (0) | 2025.02.28 |
[빅데이터분석기사 필기] 데이터 탐색 기초 (2) | 2025.02.28 |
[빅데이터분석기사 필기] 분석 변수 처리 출제예상문제 오답노트 (0) | 2025.02.27 |