2025/02 19

[빅데이터분석기사 필기] 데이터 탐색 기초 출제예상문제 오답노트

[틀린 문제] 02. 탐색적 데이터 분석(EDA)의 목적에 대한 설명으로 가장 부적절한 것은?① 데이터에 대한 전반적인 이해를 통해 분석 가능한 데이터인지 확인하는 단계이다.② 탐색적 데이터 분석 과정은 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정이다.③ 데이터를 시각화하는 것만으로는 이상점(Outlier) 식별이 잘 되지 않는다.④ 알고리즘이 학습을 얼마나 잘 하느냐 하는 것은 전적으로 데이터의 품질과 데이터에 담긴 정보량에 달려 있다.✅ 4번도 문제가 참... 전적으로 데이터에 달려 있진 않고 알고리즘의 구조와 선택, 하이퍼파라미터 튜닝 등 있잖아요...  33. 다음 중 데이터시각화 방법에 대한 설명으로 가장 적절한 것은?① 데이터 시각화는 탐색적 데이터 분석에서 선택 과정으로 수치..

[빅데이터분석기사 필기] 데이터 탐색 기초

데이터 탐색 과정구분묘사적 데이터 분석(DDA: Descriptive Data Analysis)탐색적 데이터 분석(EDA: Exploratory Data Analysis)확증적 데이터 분석(CDA: Confirmatory Data Analysis)예측적 데이터 분석(PDA: PredictiveData Analysis)목적현재의 모습을 요약하여 기술 수집된 데이터의 표현수집된 데이터를 탐색하여 이해하고, 가설 도출도출된 가설 검정관계식을 만들고 최적의 조건을 예측분석도구평균, 표준편차, 빈도수, 백분위수, 첨도, 왜도 등그래프 분석(히스토그램, 파레토 파트, Box Plot 등)정규성 확인, 트렌드 분석추정(점추정, 구간추정)가설검정(Z검정, t검정, 분산분석, 회귀분석 등)모델링 기법(K-NN, Nuer..

[빅데이터분석기사 필기] 분석 변수 처리 출제예상문제 오답노트

[틀린 문제] 01. 분석 변수 처리에 관한 설명으로 알맞지 않은 것은?① 확보한 데이터를 사용하여 정보를 추가하는 일련의 과정이다.② 새로운 데이터(관측치나 변수)를 추가하지 않고도 기존 데이터를 유용하게 만드는 방법론으로 볼 수 있다.③ 변수의 개수에 대해 비즈니스의 의미와 특성을 보존하면서 변수를 축소시키는 과정이 중요하다.④ 분석 변수 처리는 결과에 중요한 영향을 주지 않는 변수일 경우는 생략 가능하다.✅ 데이터의 축소, 생성, 처리 과정을 거쳐 원하는 결과를 도출하는 기반이 되는 작업으로 반드시 필요하다. -> 다른 변수와 결합해서 유의미할 수도 있으니까  17. 다음은 변수 선택 방법에 대한 설명이다. 다음 중 옳은 것을 고르시오.① 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법..

[빅데이터분석기사 필기] Day8: 분석 변수 처리

변수의 이해관점설명통계학 관점의 변수각 측정 단위에 대해서 특정하려고 하는 특성, 관찰된 항목이나 대상(관측치)의 특성을 수치화하기 위해 쓰이는 속성수학 관점의 변수계속 변하는 값이면서, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호'데이터베이스 관점의 변수저장된 값의 특성을 대표하며, 그 값을 저장하는 공간(정수, 실수, 문자열 등)  인과관계 관점의 변수구분설명독립변수(Independent Variable)다른 변수에 영향받지 않고 종속변수에 영향을 주는 변수원인변수, 설명변수, 예측변수, 입력변수, 조작변수 라고도 함예) 원인: 키, 몸무게, 취미종속변수(Dependent Variable)독립변수로부터 영향을 받는 변수반응변수, 결과변수, 출력변수, 목적변수 라고도 함  데이터 특성에..

[빅데이터분석기사 필기] 데이터 정제 출제예상문제 오답노트

[틀린 문제] 06. 데이터 전처리 단계에서 데이터의 이상값(Outlier)에 대한 설명으로 옳지 않은 것은?① 최대값과 최소값② 데이터 입력 시 오타로 인해 잘못 입력된 경우③ 분석 목적에 부합되지 않아 처리해야 하는 경우④ 부정사용방지 시스템에서 의도된 이상값✅ 2번이 노이즈라 생각해서 틀렸으나 이상값인가봄..! 최대값과 최소값은 무조건 이상값으로 볼 수 없음.  16. 이상값의 발생 원인으로 적절하지 않은 것을 고르시오.① 실험이나 측정의 오류와는 상관없이 이상값은 발생 가능하다.② 다른 클래스의 데이터가 섞여 있는 경우 이상값이 발생 가능하다.③ 실제 발생한 데이터이나 평균보다 크게 차이가 나는 데이터일 경우 발생 가능하다.④ 고의로 인해 데이터를 오입력하는 경우 이상값이 발생할 수 있다.✅ 음 ..

[빅데이터분석기사 필기] 데이터 정제

데이터 전처리 유형구분유형 설명데이터 정제데이터 실수화(Data Vectorization)문자열, 범주형 데이터 등의 데이터를 컴퓨터가 이해할 수 있는 실수형으로 변환하는 과정데이터 정제(Data Cleansing)속성에 비어 있는 데이터나 잡음, 결측값, 이상값, 모순된 데이터 등을 정합성이 맞도록 교정하는 작업데이터 통합(Data Integration)서로 다른 데이터 세트가 호환 가능하도록 파일 통합같은 객체, 같은 단위나 좌표로 데이터를 통합분석 변수 처리데이터 축소(Data Reduction)변수 선택(Variable Selection)해결하고자 하는 문제에 대해 유의미한 변수를 선택통계학적으로 종속변수에 유의미한 독립변수를 선택차원 축소(Dimensionality Reduction)샘플링, 차..

[빅데이터분석기사 필기] 데이터 적재 및 저장 출제예상문제 오답노트

[틀린 문제] 02. 전통적 분석 환경에서의 ETL에 대한 설명으로 알맞지 않은 것은?① ETL은 Extract, Transform, Load 세 단어의 축약어로 데이터 소스 시스템 및 환경으로부터 데이터를 추출하여 비즈니스 데이터로 변환 후 데이터 마트, 데이터 웨어하우스, ODS로 적재한다.② ETL 구현을 위해 일괄 ETL(Batch ETL) 실시간 ETL(Real Time ETL)로 구분할 수 있다.③ 대용량 데이터 처리를 위해 MPP(작업 단계에서 다수의 프로세서가 동시 처리할 수 있게 하는 병렬 처리 프로세스)를 지원한다.④ ETL은 중간 단계에 저장하는 역할을 한다.✅ MPP: Massively Parallel Computer✅ ELT가 아니라 ETL!! - 마지막 단계에 저장 11. NoS..

[빅데이터분석기사 필기] 데이터 적재 및 저장

📊 데이터 유효성과 활용성🔍 데이터 정확성 및 활용성정확성: 데이터가 사실과 일치하는 정도일관성: 데이터가 시간에 따라 일관되게 유지되는 정도활용성: 데이터가 얼마나 잘 활용될 수 있는지🎯 데이터 품질 요소정확성사실성적합성필수성연관성데이터가 실제와 일치데이터가 사실에 근거데이터의 사용 목적에 적합데이터가 필요한 항목데이터 간의 관계가 성립정합성일치성무결성데이터가 정확하고 일관성 있음데이터 항목들이 일치데이터가 손상 없이 완전함📦 데이터 유용성 및 접근성유용성접근성적시성보안성데이터가 실제로 유용한 정도데이터에 접근할 수 있는 정도데이터가 적시에 제공되는지 여부데이터의 보안 및 보호 상태📥 데이터 적재데이터는 빅데이터 유형과 실시간 처리 여부에 따라 다양한 저장 시스템에 적재됩니다. 이를 위해 RD..

[빅데이터분석기사 필기] 데이터 수집 및 전환 출제예상문제 오답노트

[틀린 문제] 11. 다음 중 반정형 데이터의 수집 기술로 가장 적절하지 않은 것은??① Open API② HTTP③ ETL④ Crawling✅ ETL은 정형 데이터의 수집 기술이다.  15. 데이터 유형과 그 종류를 연결한 것으로 가장 적절하지 않은 것은?① 정형 데이터: RDBMS, 스프레드 시트② 반정형 데이터: HTML, XML, 동영상③ 비정형 데이터: 센서 데이터, SNS 문서④ 비정형 데이터: 웹문서, 웹로그✅ 동영상은 비정형 데이터  30. 데이터는 개인정보 식별 측면에서 준식별자로 구분된다. 다음 중 성격이 다른 것은?① 지문② 결혼 여부③ 혈액형④ 허리둘레✅ 지문은 식별자  33. 다음 중 데이터 비식별 처리 기법 중 하나인 총계처리 기법의 세부 기술로 가장 적절하지 않은 것은?① 총계..

[빅데이터분석기사 필기] 데이터 수집 및 전환

📊 데이터 적재 및 저장 계획🔄 데이터 처리기술기술목적필터링불필요한 정보 삭제/보정/중복성 제거 등변환일관성 있는 형식으로 변환 (평활화, 정규화 등)정제결측값 처리, 잡음 제거 등통합출처 다르고 연관성 있는 데이터 결합축소불필요한 데이터 축소, 고유한 특성은 손상 X📦 데이터 수집 프로세스수집 데이터 도출 → 목록 작성 → 소유기관 파악 & 협의 → 데이터 유형 분류 & 확인 → 수집 기술 선정 → 수집 주기 결정 → 수집 실행🗂️ 데이터 유형별 수집 대상내부 데이터: 서비스, 네트워크, 마케팅외부 데이터: 소셜, 네트워크, 공공📚 데이터 저장 시스템🔗 SCM (Supply Chain Management)부품 제공업체부터 고객까지 물류 흐름을 최적화하는 시스템자재구매, 생산, 재고, 유통, ..