[과목 I] 데이터 이해
1. 데이터와 정보
1. 데이터의 정의
(1) 데이터의 정의
① 데이터의 정의
- 데이터(Data)는 라틴어 ‘dare(주다)’, ‘Datum(주어진 것, 선물 자료)’에서 왔으며, 보통 연구나 조사 등이 바탕이 되는 재료 혹은 자료를 의미한다.
- 1646년 영국 문헌에서 처음으로 등장한 데이터는, 추상적이고 관념적인 개념이었다가 1900년대 중반 컴퓨터의 시대가 도래하면서 그 의미가 기술적이고 사실적인 의미의 ‘자료’로 변화하였다.
② 데이터의 특성 ⭐️
- 데이터는 있는 그대로의 사실, 예를 들어 수학 80점, 영어 100점과 같이 가공되지 않은 자료, 즉 객관적인 사실을 의미한다.
- 정보는 이러한 데이터로부터 얻은 것으로 ‘수학과 영어 점수의 평균은 90점’과 같이 가공된 자료를 의미한다.
- ‘있는 그대로의 사실’을 나타내는 것을 데이터의 존재적 특성이라 하며, 후자와 같이 ‘추론∙예측∙전망∙추정을 위한 정보의 근거’가 될 수 있는 것을 데이터의 당위적 특성이라고 한다.
[데이터의 특성]
구분 | 형태 | 예 |
---|---|---|
존재적 특성 | 데이터는 있는 그대로의 객관적 사실 | 수학 80점, 영어 100점 |
당위적 특성 | 데이터는 추론∙예측∙전망∙추정을 위한 근거 | 평균 90점 |
- 일반적으로 데이터란 이론을 세우는 데 기초가 되는 사실 또는 바탕이 되는 자료, 혹은 컴퓨터가 처리할 수 있는 문자, 소리, 그림 따위의 형태로 된 자료를 의미한다.
- 데이터는 정보가 아니라 자료라는 점이다. 데이터가 의미를 담고 있으면 정보가 되지만, 의미가 없다면 그냥 자료로 남는다. 데이터는 단순한 정보 객체로서의 가치뿐만 아니라 다른 객체(온도, 습도, 풍향, 기압 등)와의 상호관계 속에서 가치(일기예보, 예측)을 갖는다.
(2) 데이터의 유형
① 정성적 데이터와 정량적 데이터
- 정성적 데이터: 언어와 문자 등을 예로 들 수 있다. 정성적 데이터는 집합으로 표현할 수 없다. 정성적 데이터는 기준이 명확하지 않은 데이터를 의미한다.
- 정량적 데이터: 정량적 데이터는 수치, 도형, 기호 등을 예를 들 수 있으며, 집합으로 표현할 수 있는 기준이 명확한 데이터를 의미한다.
[정성적 데이터와 정량적 데이터] ⭐️
구분 | 형태 | 예 |
---|---|---|
정성적 데이터 | 언어, 문자 등 | 문자 텍스트, 언어, 문자 |
정량적 데이터 | 수치, 도형, 기호 등 | 30cm, 정육면체, 3시 방향 등 |
② 정형 데이터와 비정형 데이터, 그리고 반정형 데이터
- 정형 데이터: 고정된 틀을 가지고 있으면서 연산이 가능한 데이터다. 관계형 데이터베이스(이하 DB)에 저장하며, 데이터 수집과 관리가 용이하다.
- 비정형 데이터: 고정된 틀이 존재하지 않고 연산이 불가능하다. 따라서 수집과 관리가 어려우며 일반적으로 관계형 DB가 아닌 NoSQL(Not only SQL) DB에 저장된다.
- 반정형 데이터: 고정된 형태는 있지만 연산이 불가능하다. 수집과 관리가 쉽지는 않으며 일반적으로 테이블 형태보다는 파일 형태로 저장한다. 반정형 데이터는 가공을 거쳐 정형 데이터로 변환이 가능하다.
[정형 데이터, 비정형 데이터, 반정형 데이터] ⭐️
구분 | 특징 | 예 |
---|---|---|
정형 데이터 | 정형화된 틀이 있고 연산이 가능 | CSV, 엑셀 스프레드시트 등 |
비정형 데이터 | 정형화된 틀이 없고 연산이 불가능 | 소셜 데이터, 댓글, 영상, 음성 등 |
반정형 데이터 | 형태는 있지만 연산이 불가능 | XML, JSON, 센서 데이터 등 |
③ 암묵지와 형식지 ⭐️⭐️ - 기본개념과 상호작용
- 암묵지(Tacit Knowledge): ‘학습과 체험을 통해 개인에게 습득되어 있지만, 겉으로 드러나지 않는 상태의 지식’을 말한다. 머릿속에 존재하는 지식으로, 언어나 문자를 통해 나타나지 않는 지식이다. 또한 암묵지는 대개 시행착오와 같은 경험을 통해 체득하는 경우가 많다.
- 형식지(Explicit Knowledge): ‘암묵지가 문서나 메뉴얼처럼 외부로 표출돼 여러 사람이 공유할 수 있는 지식’을 말한다. 교과서, 데이터베이스, 신문, 비디오와 같이 어떤 형태로든 형상화된 지식은 형식지라고 할 수 있다.
- 암묵지와 형식지의 상호작용: 공유화되지 어려운 암묵지가 형식지로 표출되고 연결되면 그 상호작용으로 지식이 형성된다. 개인에게 내면화된 암묵지가 조직의 지식으로 공통화되기 위해서는(형식지가 되기 위해서는) 표줄화하고 이를 다시 개인의 지식으로 연결화하는 과정을 거치게 된다. 이는 다시 개인에게 내면화되는 과정을 거친다.
[암묵지와 형식지의 상호작용] ⭐️⭐️ [공표연내]
암묵지 | 형식지 |
---|---|
공통화(Socialization) | 표출화(Externalization) |
내면화(Internalization) | 연결화(Combination) |
- 조직의 지식으로 공통화를 위한 ‘표출화’
- 개인에게 연결 및 습득되는 ‘내면화’
2. 데이터와 정보
(1) DIKW 피라미드 ⭐️⭐️⭐️
① 데이터에서 지혜를 얻는 과정
- 데이터(Data): 개별 데이터 자체는 의미가 중요하지 않은 객관적인 사실을 말한다.
- 정보(Information): 데이터의 가공∙처리와 데이터 간 연관 관계 속에서 의미가 도출된 것을 말한다. 하지만 정보가 내포하는 의미는 유용하지 않을 수 있다.
- 지식(Knowledge): 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화된 것을 말한다.
- 지혜(Wisdom): 지식의 축적과 아이디어가 결합된 창의적 산물이다.
② DIKW 피라미드
(2) 데이터에 관한 상식
① 비트와 바이트
- 비트(bit): ‘0’과 ‘1’의 두 가지 값으로 신호를 나타내는 최소단위. 이진수를 뜻하는 ‘binary digit’의 약자
- 바이트(byte): 8개의 비트로 구성된 데이터 양을 나타내는 단위. 1바이트로는 숫자와 영어의 한 글자를 표현할 수 있다. 한글은 한 글자가 2바이트(byte) 크기를 갖는다.
② 데이터 단위 순서 ⭐️
- 1바이트(byte) = 8비트(bit)
- 1킬로바이트(KB) = 1024바이트(byte)
- 1메가바이트(MB) = 1024킬로바이트(KB)
- 1기가바이트(GB) = 1024메가바이트(MB)
- 1테라바이트(TB) = 1024기가바이트(GB)
- 1페타파이트(PB) = 1024테라바이트(TB)
- 1엑사바이트(EB) = 1024페타바이트(PB)
- 1제타바이트(ZB) = 1024엑사바이트(EB)
- 1요타바이트(YB) = 1024제타바이트(ZB)
- KB < MB < GB < TB < PB < EB < ZB < YB (Peta < Exa < Zetta < Yotta)
- 정형 데이터 : 데이터베이스 구조와 형식에 맞게 저장되도록 구성하여 고정된 필드에 저장되는 데이터. ERP, SCM, CRM 등
- 비정형 데이터 : 정의된 구조가 없는 동영상, 텍스트, 오디오, 사진 등과 같이 정형화 되지 않은 데이터. 온도, RFID, QR코드, 이메일 등
- 반정형 데이터 : 데이터 형식과 구조가 변경될 수 있는 데이터. XML, JSON, HTML, 웹 로그, 모바일 데이터 등이 대표적인 반정형 데이터
3. 분석 과제 발굴 개요
(1) 분석 과제 ‘발굴’의 개념과 ‘탐색’ 방법
① 분석 과제 발굴
- 가장 먼저 해야할 일은 ‘무엇’을 분석해야 하는지 그 분석 과제를 발굴하는 일이다.
- 분석과제 발굴이란 해결해야 할 다양한 기업(혹은 분석의 주체)의 문제를 ‘데이터 분석 문제’로 변환하는 것을 포함하는 개념이다.
- 분석 과제는 이해관계자들이 이해할 수 있게 프로젝트 수행 목적의 과제 정의서 형태로 도출된다.
- 분석 과제를 탐색하기 위해 크게 하향식 접근법과 상향식 접근법으로 나뉜다.
② 분석 과제 탐색 방법 ⭐️⭐️⭐️ - 개념
- 하향식 접근법
- 문제 주어졌을 때 우리가 해결해야 할 과제가 무엇인지를 찾는 전통적인 Top-Down 수행 방법으로, 각 과정이 체계적으로 단계화되어 문제를 해결하는 방식이다.
- 상향식 접근법
- 대규모 데이터가 생성되고 빠르게 변하는 현대에서는 문제가 무엇인지 사전에 정의하는 것이 어렵기 때문에 다양한 데이터의 조합 속에서 인사이트를 찾아내는 Bottom-Up 방식이다.
- 분석 대상을 알고 있다면 하향식 접근법, 모른다면 상향식 접근법을 사용한다.
- 실제 분석 과정에서는 분석 과제 발굴을 위해 하향식 접근법과 상향식 접근법을 혼용해서 사용하는 경우가 많다.
[분석 과제 발굴]
[분석 과제 발굴 방법론 개념도] ⭐️⭐️⭐️ - 특히 하향식 접근법의 각 단계별 내용
하향식 접근법은 현황 분석을 통해서 또는 인식된 문제로부터 기회나 문제를 탐색하고, 문제를 정의, 해결 방안을 탐색, 데이터 분석의 타당성을 평가하는 과정을 거쳐 분석 과제를 도출하는 과정으로 구성되어 있다.
참고 자료
- https://www.youtube.com/watch?v=8YN9vZp495E&t=1s
- 전용문, 박현민 저자.2024 이지패스 ADsP 데이터분석 준전문가.위키북스.2024년 01월 12일
이 기사는 저작권자의 CC BY 4.0 라이센스를 따릅니다.