포스트

모의고사 풀이

Q. 데이터 사이언스 구성요소에 해당되지 않는 것은?

④ RFID

① IT

② 분석

③ 비즈니스 컨설팅

④ RFID

  • 데이터 사이언스 구성요소에는 IT, 분석, 비즈니스 컨설팅이 있다.

Q. 다음은 특정 산업의 일차원적 분석 사례를 나열한 것이다. 어떤 산업의 분석 애플리케이션 사례인가?

트레이딩, 공급 및 수요예측

① 운송업

② 에너지

③ 금융서비스

④ 소매업

  • 산업 분야 데이터 분석 애플리케이션의 사례에서 트레이딩, 공급 및 수요 예측은 에너지에 속한다.

Q. 다음의 설명이 가리키는 것은?

④ 분류분석

  • 대출 상환을 잘하는 집단에 속하는지 그렇지 않은 집단에 속하는지 해결하려 할 때 사용한다.
  • 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용한다.

① 상관분석

② 시계열분석

③ 연관분석

④ 분류분석

  • 분류분석은 문서를 분류하거나 조직을 그룹으로 나눌 때 사용된다.

Q. 미래 사회 특성으로 보기 어려운 것은?

③ 확실성에 대한 통찰력이 요구된다.

① 다양한 기술들의 융합과 관련하여 창조력이 요구된다

② 다양한 위험 사항(리스크)에 대해 대응력이 요구된다.

③ 확실성에 대한 통찰력이 요구된다.

④ 스마트한 경쟁력이 요구된다.

  • 미래 사회는 불확실성에 대한 통찰력이 요구되는 시대가 될 것이다.

Q. 다음 중 정밀도를 계산하기 위한 올바른 수식은 무엇인가?

정밀도 = TP / (TP + FP)


Q. 정확도와 정밀도에 대한 설명 중 가장 부적합한 것은?

① 정확도와 정밀도는 상충관계인 경우가 많다

② 모델의 안정성 측면에서는 정확도가 중요하고, 분석의 활용 측면에서는 정밀도가 중요하다.

③ 정밀도는 모델을 지속적으로 반복했을 때 편차의 수준을 의미한다.

④ 정확도와 정밀도는 모델의 해석 및 적용시 사전에 고려가 필요하다.

  • 정확도(Accuracy)는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고 정밀도(Precision)은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다.

Q. 분석 기회 발굴의 범위 확장에 있어, 니즈 탐색 관점 영역에 해당되지 않는 것은?

③ 사회

① 채널

② 고객

③ 사회

④ 영향자들

  • 사회는 거시적 관점 분석 모델 영역에 해당된다.
  • 분석 기회 발굴 범위의 확장⭐️⭐️ 기업과 산업 환경을 중심으로 거시적 관점, 경쟁자, 시장의 니즈, 역량 등 4가지 영역에 대해 비즈니스 문제를 발굴하는 방법이다.
    • 거시적 관점(STEEP)
      • 문제 혹은 변화가 기업에 주는 영향을 탐색한다.
        • 사회: 노령화 문제, 저출산 문제 등
        • 기술: 나노 기술, IT 융합 기술, 로봇 기술의 등장 등
        • 경제: 원자재 가격, 환율, 금리의 변화 등
        • 환경: 탄소 배출 규제 등
        • 정치: 대북 관계 등
    • 경쟁자 확대 관점
      • 기업에 위협이 될 상황을 탐색한다.
        • 대체재: 기업의 상품 및 서비스가 대체될 수 있는 것에 대한 탐색 및 잠재적 위협 파악
        • 경쟁자: 식별된 주요 경쟁사의 제품 및 서비스 카탈로그 및 전략을 분석
        • 신규 진입자: 현재 직접적인 경쟁자는 아니지만 향후 영향력이 커질 것으로 판단되는 위협
    • 시장의 니즈 탐색
      • 시장의 니즈 탐색 관점에서 문제를 탐색한다.
        • 고객: 고객 기업들의 산업 및 경영 현황 등을 파악
        • 채널: 상품 및 서비스가 전달될 수 있는 경로에 대한 파악
        • 영향자들: 시작 확대에 따른 유사 업종의 기업 인수 등에 대한 파악
    • 역량의 재해석
      • 역량의 재해석 관점에서 다시 기업 내부를 둘러보도록 한다.
        • 내부 역량: 자사 소유 부동산 등 부가 가치 창출 기회의 탐색
        • 파트너와 네트워크: 자사가 직접 보유하고 있지는 않지만 관계사 혹은 공급사의 역량을 활용한 부가가치 창출 기회의 탐색으로 기업경영 노하우 등이 있다.

Q. 데이터 거버넌스의 구성요소가 아닌 것은?

① 원칙

② 절차

③ 조직

④ 방법론

  • 데이터 거버넌스의 구성요소에는 원칙, 조직, 절차가 있다.
  • 데이터 거버넌스 구성 요소
    • 원칙(Principle): 데이터를 유지 관리하기 위한 지침과 가이드 예) 보안 & 품질 기준, 변경 관리
    • 조직(Organization): 데이터를 관리할 조직의 역할과 책임 예) 데이터 관리자, DB 관리자, 데이터 아키텍트
    • 프로세스(Process): 데이터 관리를 위한 활동과 체계 예) 작업 절차, 모니터링 활동, 측정 활동

Q. 소프트웨어공학에서 소프트웨어 개발 및 전산 장비 운영 업체들에 대한 업무 능력, 조직의 성숙도에 대한 평가를 하는 모델을 무엇이라 하는가?

① SPICE

② ISO 12000

③ ISO/IEC 12207

④ CMMI

  • CMMI(Capability Maturity Model Integration)는 소프트웨어 프로세스 품질을 평가하는 대표적인 소프트웨어 개발 표준 중에 하나이다.

Q. 다음 통계적 추정에 관한 설명 중 올바르지 않은 것은?

① 추정(estimation)은 통계량을 사용하여 모집단의 모수를 구체적으로 추측하는 과정을 말한다.

② 표본크기가 커질수록 신뢰구간이 좁아진다. 이는 정보가 많을수록 추정량이 더 정밀하다는 것을 의미한다.

③ 신뢰수준 95% 의미는 추정값이 신뢰구간에 존재할 확률이 95%라고 할 수 있다.

④ 하나의 점으로 값을 표현하는 것을 점 추정(point estimation)이라고 한다.

  • 샘플을 랜덤하게 추출해서 95% 신뢰구간을 구하면, 스무번 중 한 번은 전체 평균이 벗어날 수 있다는 의미이다. 스무번 중 한 번이란 확률적으로는 5%이고, 이를 유의수준이라고 표현한다.
  • 유의수준(a)
    • 귀무가설이 참일 때 기각하는 1종 오류를 범할 확률의 허용 한계 (일반적 0.05)
  • 유의확률(p-value) : 귀무가설을 지지하는 정도를 나타내는 확률
  • 전수조사와 표본조사
    • 전수조사 : 전체를 다 조사, 시간과 비용 많이 소모
    • 표본조사 : 일부만 추출하여 모집단을 분석
  • 모집단(population) : 데이터가 랜덤하게 표본화되었다고 가정하는 분포/집단 ex) 무한히 많은 수면환자들
  • 모수(population parameter) : 모집단을 정의하는 값을 모르는 상수 ex) 무한히 많은 수면환자들의 평균 수면시간 증가
  • 표본(sample) : 모집단으로부터 랜덤하게 추출된 일부 관측치 ex) 10명의 랜덤하게 무작위로 추출한 사람들
  • 통계량(statistics) : 모수를 추정하기 위해 데이터로부터 계산된 값 ex) 표본의 평균 수면시간 증가
  • 귀무가설(null hypothesis) : 모수에 대한 기존(status quo)의 사실 혹은 디폴트 값 ex) 주어진 수면제는 수면시간 증가에 효과가 없다.
  • 대립가설(alternative hypothesis) : 모수에 대해 귀무가설과 대립하여 증명하고 싶은 사실 ex) 주어진 수면제는 수면시간 증가에 효과가 있다.
  • 가설검정(hypothesis testing) : 통계량을 사용해 귀무가설을 기각하는 절차
  • 타입 1 오류(type 1 error) : 가설검정 절차가 참인 귀무가설을 기각하는 사건 ex) 실제로 수면제 효과가 없을 때 효과가 있다고 결론짓는 오류
  • 타입 2 오류(type 2 error) : 가설검정 절차가 거짓인 귀무가설을 기각하지 않는 사건 ex) 실제로 수면제 효과가 있을 때 효과가 있다고 결론짓지 못하는 오류
  • 유의수준(signifiance level) : 타입 1 오류를 범할 확률의 허용치
  • P-값 : 만약 귀무가설이 참일 때 데이터가 보여준 정도로 특이한 값이 관측될 확률 ex) 실제로 수면제의 효과가 없을 때 평균 수면시간 증가가 데이터가 보여준 것만큼 클 확률

Q. 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층에서 단순임의추출법에 따라 배정된 표본을 추출하는 방법을 무엇이라 하는가?

① 층화 추출법(stratified sampling)

② 집단 추출(cluster sampling)

③ 계통 추출(systematic sampling)

④ 편의 표본 추출(convenience sampling)

  • 층화 추출법은 모집단을 먼저 서로 겹치지 않는 여러 층으로 분할한 후, 각 층에서 단순 임의추출법에 따라 배정된 표본을 추출하는 방법이다.
  • 만약 전국 가구를 모집단으로 하는 “생활실태조사”를 한다면, 전국 모든 구는 경제적 수준, 문화적·정치적 성향이 다르고, 단순임의 추출을 하게 되면 일부 구의 과소 또는 과다 현상이 불가피하게 발생하여 서울시 전체에 대한 추정치가 불안정한 결과를 가져올 수 있으므로 각 구를 층으로 하는 임의추출을 한다.
  • 표본 추출 방법
    • 랜덤 추출법 : 무작위로 표본 추출
    • 계통 추출법 : 번호 부여하여 일정 간격으로 추출
    • 집락 추출법
      • 여러 군집으로 나눈 뒤 군집을 선택하여 랜덤 추출
      • 군집 내 이질적 특징, 군집 간 동질적 특징
    • 층화 추출법
      • 군집 내 동질적 특징, 군집 간 이질적 특징
      • 같은 비율로 추출 시, 비례 층화 추출법
    • 복원, 비복원 추출
      • 복원 추출 : 추출되었던 데이터를 다시 포함시켜 표본 추출
      • 비복원 추출 : 추출되었던 데이터는 제외하고 표본 추출

Q. R에서 새로운 패키지를 설치 및 사용하고자 할 때 명령어와 순서로 적절한 것은?

① install.packages(“패키지명”)→ library(패키지명)

② setup.packages(“패키지명”)→ library(패키지명)

③ library(패키지명)→ install.packages(“패키지명”)

④ lirary(패키지명)→ setup.packages(“패키지명”)

  • 패키지 설치 : install.packages(“패키지명”)
  • 패키지 불러오기 : library(패키지명)

Q. 확률분포에 대한 설명 중 가장 적절하지 않은 것은?

① 구간추정은 일정한 구간을 두어 추정하는 것으로서 단측(one-sided) 구간추정과 양측(two-sided) 구간추정으로 나뉜다.

② 정규분포가 아닌 경우 구간추정을 사용할 수 없다.

③ 추정치(estimate)는 표본의 자료로 구한 추정량의 구체적 수치 값을 뜻한다.

④ 점 추정은 미지의 분포에 대하여 가장 근사한 단일값을 구하는 것이다.

  • 추정
    • 표본으로부터 모집단을 추측하는 방법
      • 점추정 : 모집단이 특정한 값
      • 구간추정 : 모집단이 특정한 구간 (95%, 99%를 가장 많이 사용)
  • 자료가 관찰된 모집단의 분포가 정규분포가 아닌 경우에도 중심극한 정리(Central limit theorem)에 의하여 구간 추정이 가능하다.

Q. 다음 중 비율 척도에 대한 예시로 가장 적절한 것은?

① 무게, 나이

② 성별, 출생지

③ 온도, 지수

④ 선호도

  • 비율 척도는 절대 영점이 존재하며, 사칙 연산이 가능하다.
  • 자료의 척도 구분
    • 질적 척도
      • 명목척도 : 어느 집단에 속하는지 나타내는 자료 (대학교, 성별)
      • 순서척도(서열척도) : 서열관계가 존재하는 자료 (학년, 순위)
    • 양적 척도
      • 등간척도(구간척도): 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능 (온도, 지수 등)
      • 비율척도 : 절대적 기준 0이 존재하고 사칙연산 가능한 자료 (무게, 나이 등)

Q. 코드의 결과로 적절한 것은 무엇인가?

1
s <- c(Monday, Tuesday, Wednesday) substr(s, 1, 2)

① “Monday”, “Tuesday””

② “Mo”, “Tu”, “We”

③ “Mo”, “Tu”

④ “ay”, “ay”, “ay”

  • substr 함수는 문자열에서 일부를 추출하는 함수이다.
  • substr(문자열, 시작위치, 끝위치) 이므로, substr(s, 1, 2)는 s에 저장된 각각의 문자열에 대해 1번째 위치부터 2번째 위치의 문자까지를 추출하라는 의미가 된다.

Q. KDD 분석 절차 중 데이터 세트에 포함되어 있는 잡음과 이상값, 결측치를 식별하고 필요시 제거하거나 의미 있는 데이터로 처리하는 데이터 세트 정제 작업 단계를 무엇이라 하는가?

① 데이터 전처리

② 데이터 변환

③ 데이터 마이닝

④ 데이터 마이닝 결과 평가

  • 데이터 전처리 유형
    • 데이터 정제 : 이상치, 결측치를 파악해 제거하거나 적절한 값으로 대치
    • 데이터 통합 : 여러 테이블에 있는 데이터를 병합 + 통합하여 적절한 데이터셋 생성
    • 데이터 축소 : 변수 선택, 요약변수 생성 등을 통해 데이터의 차원을 줄임
    • 데이터 변환 : 정규화, 표준화 등의 작업 수행, 데이터의 형식 변환
  • 결측값
    • 존재하지 않는 데이터, null/NA로 표시, 의미 있는 데이터 일 수도 있음
  • 이상값
    • 극단적으로 크거나 작은 값이며, 의미 있는 데이터 일수도 있음
    • 이상값을 항상 제거하는 것은 아님(체중 3kg)

Q. 표본공간과 확률에 관한 설명 중 부적절한 것은?

① 모든 사건의 확률값은 0과 1사이에 있다.

② 배반 사건이란 교집합이 공집합인 사건들을 말한다.

③ 이산형 확률분포에는 베르누이 분포, 이항 분포, 포아송 분포, 기하 분포 등이 있다.

④ 독립하는 두 사건 A, B가 독립이면 P(B|A)≠P(B)가 성립한다.

  • 두 사건 A, B가 독립이면 P(B|A)=P(B), P(A|B) = P(A), P(A∩B) = P(A)P(B)
  • 확률분포 : 확률변수가 특정한 값을 가질 확률을 나타내는 함수
  • 이산 확률분포 : 값을 셀 수 있는 분포, 확률질량함수로 표현 [베포항항하]
    • 이산균등분포 : 모든 곳에서 값이 일정한 분포
    • 베르노이분포: 매 시행마다 오직 두 가지의 결과 뿐인 분포
    • 이항분포 : n번의 독립적인 베르누이 시행 통해 성공할 확률 p를 가지는 분포
    • 기하분포 : 처음 성공이 나올 때까지 시도횟수를 확률변수로 가지는 분포
    • 다항분포 : 여러 개의 값을 가질 수 있는 확률 변수들에 대한 분포
    • 포아송분포 : 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수 표현하는 분포
  • 기초 확률 이론
    • 조건부 확률 : 특정 사건 B가 발생했을 때 A가 발생할 확률
      • P(A|B)=P(A∩B)/P(B) (백신을 맞았을 때 감기에 걸릴 확률)
    • 독립사건 : A, B가 서로 영향을 주지 않는 사건
      • P(A|B) = P(A)
      • P(A∩B) = P(A)P(B) (주사위 A가 3이 나왔을 때, 주사위 B가 3이 나올 확률)
    • 배반사건 : A, B가 서로 동시에 일어나지 않는 사건
      • P(A∩B) = Φ (동전을 던졌을 때 앞면과 뒷면이 동시에 나올 확률)

Q. 다중 공선성에 대한 설명 중 올바르지 않은 것은?

① 다중 공선성 문제가 발생하면 문제가 있는 변수를 제거하고 분석할 수 있다.

② 다중 공선성 문제로 불확실성이 감소할 수있다.

③ 독립변수 간에 상관관계가 높아서 데이터를 분석할 때 부정적 영향을 미치는 경우 발생한다.

④ VIF(분산챙창요인)가 4보다 크면 다중 공선성이 존재하는 것으로 해석한다.

  • 다중 공선성이 발생하면 불확실성은 증가하게 된다.

Q. 다음 괄호 ( )안에 들어갈 용어를 쓰시오.

( )은/는 시점에 상관없이 시계열의 특성이 일정한 것을 의미한다. 평균이 일정하고, 분산이 시점에 의존하지 않으며, 공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.

① 정상성

② 연속성

③ 의존성

④ 상관성

  • 정상성은 시점과는 관계없이 시계열의 특성이 일정하다는 것을 의미한다.
  • 공분산은 두 확률변수의 상관정도
  • 시간의 흐름에서 특정한 시간의 관점을 시점이라고 하고, 시점과 시점간의 차이를 시차라고 한다.
  • 시계열 분석
    • 시간의 흐름에 따라 관찰된 자료의 특성을 파악하여 미래를 예측(주기 데이터, 기온 데이터)
    • 시계열 분석을 수행하려면 정상성 자료여야 하는데, 정상성이란 평균이 일정할 것, 분산이 시점에 의존하지 않을 것 등의 일정한 조건을 요구한다. 따라서 자료가 대부분 비정상성이므로 이를 정상성 시계열 자료로 변환해야 한다.
  • 정상성
    • 시계열 예측을 위해서는 모든 시점에 일정한 평균과 분산을 가지는 정상성을 만족해야 함
    • 시차, 즉시점과 시점 간의 차이에 따라 공분산 값은 다를 수 있다.
    • 정상시계열로 변환 방법
      • 차분: 현 시점의 자료를 이전 값으로 빼는 방법
      • 지수 변환, 로그 변환

Q. 다음이 설명하는 분석 기법은 무엇인가?

  • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환
  • 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법

① 다중 회귀 분석

② 판별 분석

③ 주성분 분석

④ 요인 분석

  • ① 다중 회귀 분석 : 여러 개의 독립 변수의 값이 변화함에 따라 종속 변수의 값이 어떻게 변화하는가를 보여주는 최적의 회귀식을 도출하는 기법
  • ② 판별 분석 : 분류된 집단 간의 차이를 의미있게 설명해줄 수 있는 독립변수둘로 이루어진 최적 판별식을 찾기 위한 통계적 기법
  • ④ 요인 분석 : 수집된 자료에 유사한 변수들이 많이 포함되어 있을 경우 변수에 포함되어 있는 정보를 가능한 유지하면서 변수의 수를 줄여 차후의 분석을 용이하게 하는 데 사용되는 기법

Q. 자료들의 중간 50%에 흩어진 정도를 나타내는 통계량은 무엇인가?

① 중위수

② 사분위수

③ 평균

④ 분산

  • 사분위수는 범위(InterQuartile Range, IQR) = 3사분위수 - 1사분위수, IQR은 자료들의 중간 50%(75%-25%)에 해당되는 자료들의 범위이다.

Q. 이산형 확률분포 중 단위 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률분포는 무엇인가?

① 포아송 분포

② 이항 분포

③ 기하 분포

④ 베르누이 분포

  • 포아송 분포는 단위 시간 내에 사건이 몇 번 발생할 것인지를 나타내는 이산형 확률분포 중 하나이다.
  • 이항 분포: n번의 독립적인 베르누이 시행 통해 성공할 확률 p를 가지는 분포
  • 기하 분포: 처음 성공이 나올 때까지 시도횟수를 확률변수로 가지는 분포
  • 베르누이 분포: 매 시행마다 오직 두 가지의 결과 뿐인 분포

Q. 앙상블 모형 중 매번 분할을 수행할 때마다 설명변수의 일부분만을 고려하여 성능을 높이는 방법은 무엇인가?

① 배깅

② 부스팅

③ 랜덤 포레스트

② 의사결정나무

  • 랜덤 포레스트는 앙상블 기법 중 하나로 여러 개의 의사 결정 트리를 생성하고 각 트리가 독립적으로 예측한 결과를 종합하여 최종 예측을 수행한다. 트리 구성 시 일부 특성을 랜덤하게 선택하여 각 분할에서 최적의 특성을 선택한다.
  • 앙상블
    • 여러 개의 예측 모형들을 조합하는 기법으로 전체적인 분산을 감소시켜 성능 향상이 가능
      • 배깅(Bagging)
        • 복원추출에 기반을 둔 붓스트랩을 생성하여 모델을 학습 후에 보팅으로 결합
        • 복원추출을 무한히 반복할 때 특정 하나의 데이터가 선택되지 않을 확률: 36.8%
      • 부스팅(Boosting)
        • 잘못된 분류 데이터에 큰 가중치를 주는 방법, 이상치에 민감
        • 종류: AdaBoost, GBM, XGBoost, Light GBM
      • 보팅(Voting)
        • 다수결 방식으로 최종 모델을 선택
      • 랜덤 포레스트
        • 배깅에 의사결정트리를 추가하는 기법으로 성능이 좋고 이상치에 강한 모델

Q. 공분산과 상관계수에 대한 설명중 가장 올바르지 않은 것은?

① 공분산은 측정 단위에 영향을 받지 않는다.

② 상관 분석은 두 변수의 인과 관계 성립 여부를 확인할 수 없다.

③ 공분산이 0이라면 두 변수 간에는 아무런 선형 관계가 없고 서로 독립적인 관계에 있다.

④ 상관계수를 통하여 상관관계의 표준화된 크기를 측정할 수 있다.

  • 공분산은 측정 단위에 영향을 받게 된다. 공분산 값을 표준화를 통해 -1~1 사이로 표준화하여 두 변수 사이의 상관관계를 표현할 수 있다.
  • 편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다.

    이미지

    • 쉽게 말하면 평균(mean) 에 대한 오차이이다. 즉 , 실제 데이터 값이 평균을 기준으로 할때 얼마나 들쭉 날쭉하냐를 나타내는 것이다. 평균이 m이고, 표준편차가 3이라고 할때, 실제 값은 m+-3 값이라는 것이다.
    • 분산(Variance)은“편차의 제곱의 합”이다.
    • 분산에 루트를 씌운 것이 표준 편차(Standard deviation)이며, 이 표준편차는 평균으로부터 원래 데이타에 대한 오차범위의 근사값이다.

Q. 저차원 (2차원 내지 3차원) 격자에 고차원 데이터의 각 개체들이 대응하도록 인공신경망과 유사한 방식의 학습을 통해 군집을 도출해내는 기법을 무엇이라 하는가?

① 자기 조직화 지도(SOM)

② 다차원 척도법(MDS)

③ 인공 신경망(ANN)

④ 로지스틱 회귀 분석

  • SOM은 사람이 눈으로 볼 수 있는 저차원 격자에 고차원 데이터의 각 개체들이 대응하도록 인공신경망과 유사한 방식의 학습을 통해 군집을 도출해내는 기법이며, 고차원의 데이터 공간에서 유사한 개체들은 저차원에 인접한 격자들과 연결된다. 저차원 격자에서의 유사도는 고차원 입력 공간에서의 유사도를 최대한 보존하도록 학습한다.
  • 자원축소와 군집화를 수행하여 고차원 데이터를 시각화하는 기법
  • 은닉층 없이 입력층과 출력층으로만 구성
  • 인공신경망과 달리 순전파 방식만 사용
  • 완전연결의 형태
  • 경쟁층에 표시된 데이터는 다른 노드로 이동 가능
  • 입력변수의 위치 관계를 그대로 보존

Q. 회귀 분석에서 가장 적합한 회귀 모델을 찾기 위한 과정의 설명으로 가장 알맞지 않은 것은?

① 회귀식에 대한 검정은 독립변수의 기울기가 0이 아니라는 가정을 귀무가설, 기울기가 0인 것을 대립가설로 놓는다.

② 회귀 분석의 가설 검정에서 p-값이 0.05보다 작은 값이 나와야 통계적으로 유의미한 결과이다.

③ 잔차의 독립성, 등분산성, 정규성을 만족하는지 확인해야 한다.

④ 독립변수의 수가 많아지면 독립변수 간에 서로 영향을 미치는 다중 공선성의 문제가 발생하므로 상대적인 조정이 필요하다.

  • 회귀계수(독립변수의 가중치)가 0이면 독립변수는 종속변수와 인과 관계가 없다.
  • 회귀계수의 t-통계량의 p-값이 0.05보다 작으면 통계적으로 유미의미함(H1)을 채택한다.
  • 회귀분석
    • 독립변수들이 종속변수에 영향을 미치는 파악하는 분석방법
    • 독립변수: 원인을 나타내는 변수(x)
    • 종속변수: 결과를나타내는 변수(y)
    • 잔차: 계산값과 예측값의 차이(오차: 모집단 기준, 잔차: 표본집단 기준)
      • x, y로 회귀분석을 결정했을 때, 계산값과 예측값의 차이가 존재하는데, 이를 잔차라 부른다. 오차와 비슷한 개념이나, 오차는 모집단에서 사용한다.
    • 회귀계수 추정방법
      • 최소제곱법: 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법
    • 회귀모양 평가
      • R-squared: 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율(0~1)
  • 회귀분석의 가정
    • 선형성: 종속변수와 독립변수는 선형관계
    • 등분산성: 잔차의 분산이 고르게 분포
    • 정상성(정규성): 잔차가 정규분포의 특성을 지님
      • Q-Q plot, 사피로 월크 검정, 히스토그램, 왜도와 첨도 활용 확인
    • 독립성: 독립변수들간 상관관계가 없음

Q. 시계열 분석을 위해서는 정상성을 만족해야 하는데, 자료가 추세를 보일 때에는 현 시점의 자료에서 이전 시점의 자료를 빼는 방법을 통해 비정상 시계열을 정상 시계열로 바꾸어 준다. 현 시점에서 이전 시점의 자료를 빼는 방법은 무엇인가?

① MSE

② 차분

③ RMSE

④ F-score

  • 시점에서 이전 시점의 자료를 빼는 방법은 차분이다.
  • 시계열 분석
    • 시간의 흐름에 따라 관찰된 자료의 특성을 파악하여 미래를 예측(주기 데이터, 기온 데이터)
  • 정상성
    • 시계열 예측을 위해서는 모든 시점에 일정한 평균과 분산을 가지는 정상성을 만족해야 함
    • 정상시계열로 변환 방법
      • 차분: 현 시점의자료를 이전 값으로 빼는 방법
      • 지수변환, 로그변환
  • 백색 잡음
    • 시계열 모형의 오차항을 의미하며 원인은 알려져 있지 않음
    • 평균이 0이면 가우시안 백색잡음
  • 시계열 모형
    • 자기회귀(AR) 모형
      • 자기자신의 과거 값이 미래를 결정하는 모형
      • 자기 회귀는 시계열 분석에 사용되는 통계 기법으로, 시계열의 현재 값이 과거 값의 함수라고 가정한다. 자기 회귀 모델은 유사한 수학적 기법을 사용하여 시퀀스에 있는 요소 간의 확률적 상관관계를 판단한다.
      • 부분자기상관함수(PACF)를 활용하여 p+1 시점 이후 급격 감소하면 AR(p) 모형 선정
    • 이동평균(MA) 모형
      • 이전 백색잡음들의 선형결합으로 표현되는 모형
      • 자기상관함수(ACF)를 활용하여 q+1 시차 이후 급격히 감소하면 MA(q) 모형 선정
    • 자기회귀누적이동평균(ARIMA) 모형
      • AR 모형과 MA 모형의 결합
      • ARIMA(p, d, q)
        • p와 q는 AR 모형과 MA 모형이 관련 있는 차수
        • d는 정상화시에 차분 몇 번 했는지 의미
        • d = 0이면, ARMA 모델

Q. 신경망 모델 학습 모드에 해당되지 않는 것은?

① 온라인 학습 모드

② 확률적 학습 모드

③ 배치 학습 모드

④ 재귀 학습 모드

  • 신경망 모델 학습 모드에는 온라인, 확률적, 배치 학습 모드가 있다.
  • 온라인 학습 모드 : 관측값을 순차적으로 입력하여 가중치 변수값을 매번 업데이트
  • 확률적 학습 모드 : 관측값을 랜덤하게 입력하여 가중치 변수값을 매번 업데이트
  • 배치 학습 모드 : 전체 데이터를 동시에 입력하여 학습

Q. 인공신경망에서 역전파 알고리즘 사용시 은닉층이 늘어나면서 기울기가 중간에 0이 되어버리는 문제를 무엇이라 하는가?

① 오차

② 가중치 갱신

③ 기울기 증폭

④ 기울기 소실

  • 역전파(Backpropagation) 알고리즘을 사용하여 가중치를 업데이트할 때, 오차를 역방향으로 전파하면서 기울기를 계산한다. 그러나 은닉층이 깊어질수록 기울기는 연쇄 법칙에 의해 이전 층으로 전파되면서 계속 곱해지게 되고 이 과정에서 기울기 값은 지수적으로 작아지는 경향이 있다.
  • 인공신경망
    • 인공의 뇌 구조를 모방한 퍼셉트론을 활용한 추론모델
    • 구조
      • 단층 신경망: 입력층과 출력층으로 구성(단일 퍼셉트론)
      • 다층 신경망: 입력층과 출력층 사이에 1개 이상의 은닉층 보유(다중 퍼셉트론)
    • 활성화 함수
      • 인공신경망의 선형성을 극복
      • 1) 시그모이드 함수
        • 0~1 사이의 확률 값을 가지며, 로지스틱 회귀 분석과 유사
      • 2) 소프트맥스 함수
        • 출력 값이 여러 개로 주어지고 목표 데이터가 다범주인 경우 활용
        • 활성화 함수 종류 중에서 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수
      • 3) 하이퍼블릭 탄젠트(Tanh) 함수
        • -1~1 사이 값을 가지며, 시그모이드 함수의 최적화 지연을 해결
      • 4) RelU 함수
        • 기울기 소실문제를 극복, max(0, x)
    • 학습 방법
      • 순전파(피드포워드) : 정보가 전방으로 전달
      • 역전파 알고리즘 : 가중치를 수정하여 오차를 줄임
      • 경사하강법 : 경사의 내리막길로 이동하여 오차가 최소가 되는 최적의 해를 찾는 기법
        • 회귀분석에서는 가중치인 w의 오차를 최소화하기 위해 최소제곱법 사용
      • 기울기 소실 문제 : 다수의 은닉층에서 시그모이드 함수 사용 시, 학습이 제대로 되지 않는 문제

Q. 특정 사건이 발생할 확률과 사건이 발생하지 않을 확률에 대한 비율을 무엇이라 하는가?

① 로짓

② 조건부 확률

③ 소프트맥스

④ 오즈비

  • 로지스틱 회귀분석
    • 종속변수가 범주형 데이터를 대상으로 성공과 실패 2개의 집단을 분류하는 문제에 활용
      • 오즈(Odds)
        • 성공할 확률과 실패할 확률의 비
        • Odds = 성공확률(P) / 실패확률(1-P)
      • 로짓(logit) 변환
        • 오즈에 자연로그(자연상수 e가 밑)을 취하는 작업
        • 독립변수 X가 n증가하면 확률이 e^n 만큼 증가

Q. 활성화 함수 종류 중에서 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수는 무엇인가?

① 쌍곡 탄젠트 함수

② 시그모이드 함수

③ 소프트맥스 함수

④ 리키 렐루 함수

  • 소프트맥스 함수는 다중 분류를 수행하기 위한 목적으로 사용되며, 출력값을 확률로 변환해주는 함수이다.

Q. 연관 분석(Association analysis)에 대한 설명으로 적절하지 않은 것은?

① 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어난다.

② 너무 세부화된 품목을 가지고 연관규칙을 찾으려 하면 의미없는 분석 결과가 나올 수도 있다.

③ 향상도가 1이면 두 품목 간에 연관성이 없는 서로 독립적인 관계이고, 1보다 작으면 서로 음의 관계로 품목 간에 연관성이 없다.

④ 시차 연관분석은 인과관계 분석이 가능하다.

  • 시차 연관분석은 인과관계 분석이 가능하다.

Q. 앙상블 방법론의 종류가 아닌 것은 무엇인가?

① 배깅(Bagging)

② 의사결정나무(Decision Tree)

③ 스태킹(Stacking)

④ 부스팅(Boosting)

  • 의사결정나무는 여러 의사결정의 규칙을 나무 구조로 나타내어 순차적으로 적용하면서 독립변수 공간을 분할하는 분류 모델이다.
  • 앙상블(ensemble)
    • 데이터 마이닝에서는 여러 개의 모형을 생성 및 조합하여 예측력이 높은 모형을 만드는 것을 의미한다.
    • 앙상블은 프랑스어로 ‘함께‘, ‘동시에’라는 의미로 음악에서는 1인 이상의 가창이나 연주, 소규모 인원의 합주를 의미한다.
  • 배깅(Bagging)
    • 복원추출에 기반을 둔 붓스트랩을 생성하여 모델을 학습 후에 보팅으로 결합
    • 복원추출을 무한히 반복할 때 특정 하나의 데이터가선택되지 않을 확률 : 36.8%
    • 배깅은 Bootstrap Aggregating의 줄임말로 여러 개의 붓스트랩(Bootstrap)을 집계하는 알고리즘이다.
    • 붓스트랩이란 원본 데이터와 같은 크기의 표본을 랜덤복원추출한 샘플 데이터를 의미하며, 특히 모델 구축을 위한 훈련용(train) 데이터를 가리킨다. 복원추출이기 때문에 하나의 붓스트랩에는 같은 데이터가 여러 번 추출될 수도 있지만, 그렇지 않을 수도 있다.
    • 앙상블 분석에서 각각의 모델을 분류기(classifier)라고 부르며, 흔히 의사결정나무를 사용한다. 여러 개의 분류기에 의한 결과를 놓고 다수결에 의하여 최종 결괏값을 선정하는 작업을 보팅(voting)이라 한다.
    • 분석을 위한 데이터 모집단의 분포를 현실적으로 알 수 없다. 그러나 하나의 붓스트랩을 구성할 때 원본 데이터로부터 복원추출을 진행하기 때문에 붓스트랩은 알 수 없던 모집단의 특성을 더 잘 반영할 수 있다. 배깅은 모집단의 특성이 잘 반영되는 분산이 작고 좋은 예측력을 보여준다.
  • 부스팅(Boosting)
    • 잘못된 분류 데이터에 큰 가중치를 주는 방법, 이상치에 민감
    • AdaBoosting(에이다부스탕), GBM(Gradient Boost Machine), XGBoost, Light GBM
    • 여러 개의 모형을 구축한다는 점에서 배깅과 유사하지만, 배깅은 각 분류기(모델)가 독립적인 데 반해, 부스팅은 독립적이지 않다.
    • 부스팅은 이전 모델을 구축한 뒤 다음 모델을 구축할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 붓스트랩을 구성한다. 따라서 약한 모델들을 결합하여 나감으로써 강한 분류기를 만들어나가는 과정이다.
    • 붓스트랩을 구성하는 과정에서 잘못 분류된 데이터에 더 큰 가중치를 주어 표본을 추출하기 때문에 훈련오차를 빠르게 줄일 수 있다. 예측 성능 또한 배깅보다 성능이 뛰어나다고 할 수 있다.
  • 랜덤포레스트(Random Forest) - 배깅에 의사결정 나무 추가
    • 서로 상관성이 없는 나무들로 이루어진 숲을 의미한다. 방법은 배깅과 유사하나 배깅에 더 많은 무작위성을 주는 분석기법이다.
    • 많은 무작위성으로 생성된 서로 다른 여러 개의 트리로 구성되어 있기 때문에 포레스트(Forest, 숲)라 명명되었으며, 여러 개의 약한 트리들의 선형 결합으로 최종 결합을 얻는 모델이다.
    • 분류의 경우에는 다수결로 최종 결과를 구하지만 회귀의 경우 평균 또는 중앙값을 구하는 방법을 사용한다.
    • 배깅에서는 각 붓스트랩을 활용하여 트리를 구성할 때 트리의 모든 마디가 불순도가 제일 작아지는 최적의 분할을 실시한다. 그러나 랜덤 포레스트는 각 마디에서 최적의 분할이 아닌 표본추출 과정이 한 번 더 반복되어 추출된 표본을 대상으로 최적의 분할을 실시한다.
      • 불순도란 다양한 범주(Factor)들의 개체들이 얼마나 포함되어 있는가를 의미한다.
    • 따라서 큰 분산을 갖고 있다는 의사결정 나무의 단점을 보완하여 분산을 감소시키고 모든 분류기들이 높은 비상관성을 갖기 때문에 일반화의 성능을 향상시킬 수 있다. 의사결정 나무의 특징을 물려받아 이상값에 민감하지 않다는 장점이 있다.
    • 성능치가 좋고 이상치에 강한 모델

Q. k-means 군집 분석에 대한 설명으로 가장 적절하지 않은 것은?

① 초기 군집의 중심으로 k 개의 객체를 임의로 선택한다.

② 각 자료를 가장 가까운 군집 중심에 할당한다.

③ 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신한다.

④ 군집의 중심 변화가 자료의 95% 이상 변화가 없으면 군집분석을 종료한다.

  • 군집중심의 변화가 없을 때까지 반복한다.
  • 비계층적 군집분석
    • 비계층적 군집분석은 계층적 군집분석과 다르게 데이터 간 거리행렬을 사용하여 분석을 수행하지 않는다. 또한 원하는 군집의 수(k)의 초깃값을 설정하고 분석을 수행한다. 대표적인 방법으로 k-means(k-평균) 군집이 있다.
  • k-means Clustering(k-평균 군집화)
    • 비계층적 군집화 방법으로 거리기반
    • 군집의 수(k개)를 사전에 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분할하는 알고리즘이다.
      1. 군집의 수 k의 초깃값을 설정하고 각각의 k를 설명할 변수의 값을 임의로 설정하거나 데이터 중에서 k개를 선택한다. 임의로 설정된 k개의 데이터를 seed라 한다.
      2. 각 데이터를 가장 가까운 seed로 할당한다.
      3. 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 seed를 설정한다.
      4. 새로운 seed를 중심으로 군집을 재할당한다.
      5. 각 군집의 중심이 변하지 않을 때(모든 데이터가 이상적으로 군집화될 때)까지 위 3, 4번 과정을 반복한다.
    • 특징
      • 분석 기법의 적용이 비교적 단순하고 빠르다.
      • 다양한 데이터에서 사용 가능하다.
      • 초기값 K개의 설정이 어렵다.
      • 결과의 해석에 어려움이 있다.
      • 데이터의 변수들이 연속형 변수여야 한다.
      • 안정된 군집은 보장하나 최적의 보장은 없다.
      • 이상값에 민감하게 반응한다. → 평균값 대신 중앙값을 사용하기도 한다.
      • 한번 군집에 속한 데이터는 중심점이 변경되면 군집이 변할 수 있음
    • 과정 정리
      • 1) 군집의 개수 k개 사전 설정(2개)
      • 2) 초기 중심점 설정(2개)
      • 3) 데이터들은 가장 가까운 군집에 할당
      • 4) 중심점 위치가 변하지 않을 때까지 3), 4)번 과정 반복
  • k-medoids 군집화
    • k평균 군집화의 이상치에 민감함을 대응하기 위한 군집방법
    • 일반적으로 실현된 것이 PAM(Partitioning Around Medoid)

Q. 오분류표 중 정확도와 재현율의 조화평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균한 지표를 무엇이라 하는가?

① F1 score

② Precision

③ Recall

④ Specificity

  • F1 score = 2 x precision x recall / (precision + recall)

이미지

  • TP(True Positive): 예측한 값이 Positive이고 실제 값도 Positive인 경우
  • FP(False Positive): 예측한 값이 Positive이고 실제 값은 Negative인 경우
  • TN(True Negative): 예측한 값이 Negative이고 실제 값도 Negative인 경우
  • FN(False Negative): 예측한 값이 Negative이고 실제 값은 Positive인 경우
  • 분류모델 평가지표
    • 1) 오분류표

      이미지

      • 예측과 실제가 같으면 TRUE, 예측이 TRUE면 POSITIVE
      • 정밀도: 예측(T) 전체 중 실제 T, 재현율: 실제 중 실제라 예측한 비율
    • 2) 평가지표

      이미지

      • 재현율(Recall)은 민감도(Sensitivity), TP Rate, Hit Rate라고도 함
      • F-1 Score는 Precision과 Recall의 조화평균
      • Precision과 Recall은 Trade-Off 관계
    • 3) ROC 커브
      • ROC 커브(Receiver Operating Characteristic Curve)는 분류 분석 모형의 평가를 쉽게 비교할 수 있도록 시각화한 그래프다.
      • x축을 1-특이도(FPR), y축을 민감도(TPR) 값을 갖는 그래프다. 이진 분류(0 또는 1) 모형의 성능을 평가하기 위해 사용된다.
      • ROC 커브의 아래 면적을 나타내는 AUROC(Area Under ROC)의 값이 1에 가까울수록 모형의 성능이 우수하며, 0.5에 가까울수록 무작위로 예측하는 랜덤 모델에 가까운 좋지 못한 모형이다.

        이미지

    • 4) 이익도표(Lift chart)
      • 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표
      • 향상도 곡선 : 이익도표를 시각화한 곡선

Q. 역전파 알고리즘이 출력층에서 입력층으로 갈수록 기울기가 점차 작아져 0에 수렴하게 되면서 가중치(weight)가 업데이트 되지 않는 현상을 무엇이라 하는가?

① 언더 피팅

② 오버 피팅

③ 기울기 소실

④ 기울기 발산

  • 기울기 소실 문제는 활성화 함수로 시그모이드 함수를 사용할 때 발생하며, Relu, LeakyRelu 등 다른 활성화 함수를 사용하여 해결할 수 있다.


참고 자료


이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.