전체 글 57

[빅데이터분석기사 필기] Day8: 분석 변수 처리

변수의 이해관점설명통계학 관점의 변수각 측정 단위에 대해서 특정하려고 하는 특성, 관찰된 항목이나 대상(관측치)의 특성을 수치화하기 위해 쓰이는 속성수학 관점의 변수계속 변하는 값이면서, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호'데이터베이스 관점의 변수저장된 값의 특성을 대표하며, 그 값을 저장하는 공간(정수, 실수, 문자열 등)  인과관계 관점의 변수구분설명독립변수(Independent Variable)다른 변수에 영향받지 않고 종속변수에 영향을 주는 변수원인변수, 설명변수, 예측변수, 입력변수, 조작변수 라고도 함예) 원인: 키, 몸무게, 취미종속변수(Dependent Variable)독립변수로부터 영향을 받는 변수반응변수, 결과변수, 출력변수, 목적변수 라고도 함  데이터 특성에..

[빅데이터분석기사 필기] 데이터 정제 출제예상문제 오답노트

[틀린 문제] 06. 데이터 전처리 단계에서 데이터의 이상값(Outlier)에 대한 설명으로 옳지 않은 것은?① 최대값과 최소값② 데이터 입력 시 오타로 인해 잘못 입력된 경우③ 분석 목적에 부합되지 않아 처리해야 하는 경우④ 부정사용방지 시스템에서 의도된 이상값✅ 2번이 노이즈라 생각해서 틀렸으나 이상값인가봄..! 최대값과 최소값은 무조건 이상값으로 볼 수 없음.  16. 이상값의 발생 원인으로 적절하지 않은 것을 고르시오.① 실험이나 측정의 오류와는 상관없이 이상값은 발생 가능하다.② 다른 클래스의 데이터가 섞여 있는 경우 이상값이 발생 가능하다.③ 실제 발생한 데이터이나 평균보다 크게 차이가 나는 데이터일 경우 발생 가능하다.④ 고의로 인해 데이터를 오입력하는 경우 이상값이 발생할 수 있다.✅ 음 ..

[빅데이터분석기사 필기] 데이터 정제

데이터 전처리 유형구분유형 설명데이터 정제데이터 실수화(Data Vectorization)문자열, 범주형 데이터 등의 데이터를 컴퓨터가 이해할 수 있는 실수형으로 변환하는 과정데이터 정제(Data Cleansing)속성에 비어 있는 데이터나 잡음, 결측값, 이상값, 모순된 데이터 등을 정합성이 맞도록 교정하는 작업데이터 통합(Data Integration)서로 다른 데이터 세트가 호환 가능하도록 파일 통합같은 객체, 같은 단위나 좌표로 데이터를 통합분석 변수 처리데이터 축소(Data Reduction)변수 선택(Variable Selection)해결하고자 하는 문제에 대해 유의미한 변수를 선택통계학적으로 종속변수에 유의미한 독립변수를 선택차원 축소(Dimensionality Reduction)샘플링, 차..

[빅데이터분석기사 필기] 데이터 적재 및 저장 출제예상문제 오답노트

[틀린 문제] 02. 전통적 분석 환경에서의 ETL에 대한 설명으로 알맞지 않은 것은?① ETL은 Extract, Transform, Load 세 단어의 축약어로 데이터 소스 시스템 및 환경으로부터 데이터를 추출하여 비즈니스 데이터로 변환 후 데이터 마트, 데이터 웨어하우스, ODS로 적재한다.② ETL 구현을 위해 일괄 ETL(Batch ETL) 실시간 ETL(Real Time ETL)로 구분할 수 있다.③ 대용량 데이터 처리를 위해 MPP(작업 단계에서 다수의 프로세서가 동시 처리할 수 있게 하는 병렬 처리 프로세스)를 지원한다.④ ETL은 중간 단계에 저장하는 역할을 한다.✅ MPP: Massively Parallel Computer✅ ELT가 아니라 ETL!! - 마지막 단계에 저장 11. NoS..

[빅데이터분석기사 필기] 데이터 적재 및 저장

📊 데이터 유효성과 활용성🔍 데이터 정확성 및 활용성정확성: 데이터가 사실과 일치하는 정도일관성: 데이터가 시간에 따라 일관되게 유지되는 정도활용성: 데이터가 얼마나 잘 활용될 수 있는지🎯 데이터 품질 요소정확성사실성적합성필수성연관성데이터가 실제와 일치데이터가 사실에 근거데이터의 사용 목적에 적합데이터가 필요한 항목데이터 간의 관계가 성립정합성일치성무결성데이터가 정확하고 일관성 있음데이터 항목들이 일치데이터가 손상 없이 완전함📦 데이터 유용성 및 접근성유용성접근성적시성보안성데이터가 실제로 유용한 정도데이터에 접근할 수 있는 정도데이터가 적시에 제공되는지 여부데이터의 보안 및 보호 상태📥 데이터 적재데이터는 빅데이터 유형과 실시간 처리 여부에 따라 다양한 저장 시스템에 적재됩니다. 이를 위해 RD..

[빅데이터분석기사 필기] 데이터 수집 및 전환 출제예상문제 오답노트

[틀린 문제] 11. 다음 중 반정형 데이터의 수집 기술로 가장 적절하지 않은 것은??① Open API② HTTP③ ETL④ Crawling✅ ETL은 정형 데이터의 수집 기술이다.  15. 데이터 유형과 그 종류를 연결한 것으로 가장 적절하지 않은 것은?① 정형 데이터: RDBMS, 스프레드 시트② 반정형 데이터: HTML, XML, 동영상③ 비정형 데이터: 센서 데이터, SNS 문서④ 비정형 데이터: 웹문서, 웹로그✅ 동영상은 비정형 데이터  30. 데이터는 개인정보 식별 측면에서 준식별자로 구분된다. 다음 중 성격이 다른 것은?① 지문② 결혼 여부③ 혈액형④ 허리둘레✅ 지문은 식별자  33. 다음 중 데이터 비식별 처리 기법 중 하나인 총계처리 기법의 세부 기술로 가장 적절하지 않은 것은?① 총계..

[빅데이터분석기사 필기] 데이터 수집 및 전환

📊 데이터 적재 및 저장 계획🔄 데이터 처리기술기술목적필터링불필요한 정보 삭제/보정/중복성 제거 등변환일관성 있는 형식으로 변환 (평활화, 정규화 등)정제결측값 처리, 잡음 제거 등통합출처 다르고 연관성 있는 데이터 결합축소불필요한 데이터 축소, 고유한 특성은 손상 X📦 데이터 수집 프로세스수집 데이터 도출 → 목록 작성 → 소유기관 파악 & 협의 → 데이터 유형 분류 & 확인 → 수집 기술 선정 → 수집 주기 결정 → 수집 실행🗂️ 데이터 유형별 수집 대상내부 데이터: 서비스, 네트워크, 마케팅외부 데이터: 소셜, 네트워크, 공공📚 데이터 저장 시스템🔗 SCM (Supply Chain Management)부품 제공업체부터 고객까지 물류 흐름을 최적화하는 시스템자재구매, 생산, 재고, 유통, ..

[빅데이터분석기사 필기] 분석 작업 계획 출제예상문제 오답노트

[틀린 문제] 03. 분석 목표에 맞는 데이터 확보는 빅데이터 분석의 시작이다. 분석 목표를 중심으로 데이터를 확보하기 위한 계획 수립 절차로 알맞은 것은?① 목표 정의 → 요구사항 도출 → 계획 수립 → 예산안 수립② 요구사항 도출 → 예산안 수립 → 목표 정의 → 계획 수립③ 계획 수립 → 목표 정의 → 요구사항 도출 → 예산안 수립④ 목표 정의 → 요구사항 도출 → 예산안 수립 → 계획 수립  05. 다음에 설명하는 데이터 확보 계획의 수행 단계에 대한 설명으로 옳은 것은?데이터 확보 및 관리계획, 데이터 정제 수준 및 저장형태 확인① 목표 정의② 요구사항 도출③ 예산안 수립④ 데이터 확보 계획 수립  [헷갈린 문제] 06. 데이터 확보 계획을 큰 방향성으로 분석 목적에 맞는 구체적 데이터 확보 방..

[빅데이터분석기사 필기] 분석 방안 수립 출제예상문제 오답노트

[틀린 문제] 01. 다음 중 데이터 분석 기획에 대한 설명 중 알맞지 않은 것은?① 실제 분석을 수행하기에 앞서 분석을 수행할 과제를 정의하고, 사전에 계획하는 일련의 작업을 의미한다.② 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 영량과 분석의 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다.③ 어떤 목표(What)을 달성하기 위하여(Why), 어떠한 데이터를 가지고, 어떠한 방식으로(How) 수행할지에 대한 일련의 계획 수립 과정이기 때문에 방향성이 명확해야 한다.④ 빅데이터 분석의 일부 프로세스에 대한 관점에서 접근하여 로드맵을 설정한다.✅ 빅데이터 분석의 전체 프로세스를 설계하는 관점으로 접근해야 한다. 02. ..