40회 기출문제 분석

게시 2024/07/19

By ksiiem 14 분읽는 시간

빅데이터 분석 방법론[준비, 분석, 구현, 평가 및 전개]
- 완벽한 계층적 프로세스 모델로서 단계, 태스크, 스텝의 3계층 레벨과 5단계로 구성되어 있다.
- 5개의 단계들을 프로세스 그룹이라 하며, 각 단계는 여러 개의 태스크로 구성되는데 각 태스크는 물리적 또는 논리적으로 품질 검토의 항목이 될 수 있다.
- 마지막 계층인 스텝은 입력자료, 출력 및 도구, 출력자료 등으로 구성된 단위 프로세스들이다.
- ▶ 분석 방법론의 계층 프로세스
① 단계(Phase) [최상위 계층] : 프로세스 그룹을 통해 단계별 산출물이 생성
② 태스크(Task) [중간 계층] : 단계를 구성하는 단위 활동
③ 스텝(Step) [최하위 계층] : WBS(Work Breakdown Structure) 작업단위로 입력자료, 처리 및 도구, 출력자료 등 세부적인 단위 프로세스
전통적인 분석 방법론 ( CRISP─DM 분석 방법론 ) [업데 준모평 전(배)]
- KDD 분석 방법론과 비슷하나, 약간 더 세분되어 있다는 점이 차이점이다.
- 계층적 프로세스 모델로 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행의 4개의 레벨과 업무 이해, 데이터 이해, 데이터 준비, 모델링, 평가, 전개의 6단계로 구성되어있다.

과제가 정의되어 있지 않기 때문에, 비슷한 과제 혹은 비슷한 주제끼리 묶을 필요가 있음 → 일반적으로 비지도 학습 수행
프로토타이핑은 상향식에 가깝다.
분석 과제 발굴
- 해결해야 할 다양한 기업(혹은 분석의 주체)의 문제를 ‘데이터 분석 문제’로 변환하는 것을 포함하는 개념이다.
- 분석 과제는 이해관계자들이 이해할 수 있게 프로젝트 수행 목적의 과제 정의서 형태로 도출된다
솔루션을 찾는 것은 하향식 접근법
- 분석 과제 탐색 방법
  - 하향식 접근법(TOP-DOWN)
    - 분석 대상이 무엇인지 알고 있음
    - 문제탐색-문제정의-해결방안탐색-타당성검토
    - 최적화 → 솔루션
  - 상향식(BOTTOM-UP)
    - 분석 대상이 무엇인지 모름 → 데이터에서 인사이트 발견
    - 지도학습, 비지도학습, 프로토타입 방식
    - 발견 → 통찰 (인사이트)
과제 접근론 방법 - 과제 중심적, 마스터 플랜 기반(롱텀 뷰)의 접근 방식

분류나무: 카이제곱, 엔트로피지수, 지니지수
- c는 범주의 수, p는 범주의 비율
엔트로피가 크면 클수록 불순도가 높다.(=이질성이 크다.) 엔트로피 값이 작은 방향으로 분리된다. 이 값은 0과 1 사이의 값으로 산출된다.
- 엔트로피 지수(E)와 지니 지수(G)
  - ~~지니 지수는 불순도를 나타내는 값이므로 낮을수록 좋으며, 반대로 엔트로피 지수는 순수도를 나타내는 값이므로 높을수록 좋다.~~
독립사건이 아닌, 배반사건을 말한다.
- 종속사건: 비가 올 때 우산이 잘 팔릴 확률
- 독립사건: 비가 올 때 동전의 앞면이 나올 확률 → 각각 독립이지만, 동시에 일어날 수 있는 사건이다. A ∩ B = P(A) * P(B)
- 배반사건: 동시에 일어날 수 없는 사건을 의미한다. A ∪ B = P(A) + P(B)

왼쪽은 연속형이기 때문에 평균값과 중앙값이 나오고, 오른쪽은 유형별 데이터의 건수를 보여주고 있으므로 범주형 데이터이다. 달리 표현되는 형태 기억!

분해시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법 ⤷경향(추세)요인, 계절요인, 순환요인, 불규칙요인으로 이루어짐
경향은 말 그대로 자료가 오르거나 내리는 추세를 의미 계절은 고정된 주기에 따라 자료가 변하는 경우 순환은 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 갖고 변화 불규칙은 위 3가지로 설명할 수 없을 때

정해져있는 값의 범위가 없다. → 표준화시켜 만든 것이 상관계수
F1 score는 분류모델을 평가하는 지표
베타를 매개변수로 재현율과 정확도 평균가중치를 부여해서 평가
- 1보다 크면 재현율(recall)에 가중치를 두고, 1보다 작으면 정확도(precision)에 가중치를 둔다.