정형 데이터 vs 비정형 데이터
데이터는 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터가 있다. 데이터를 구분하는 기준으로 스키마(schema) 형태의 유무, 즉 형태가 있느냐 없느냐가 우선 분류기준이다. 또한 형태가 있으면서 연산가능(calculable)한 것인지, 연산 불가능한 것인지가 그 다음 기준이다. 형태가 있고 연산가능하면 정형 데이터이다. 대표적으로 키와 몸무게가 있다. 형태가 있으나 연산가능하지 않으면 반정형 데이터에 속한다. 로그 등이 대표적이다. 비정형 데이터는 형태도 없고, 연산 가능하지도 않은 것을 말한다. 우리가 흔히 말하는 소셜 데이터가 이에 속하며 텍스트, 영상, 음성 등의 형태로 나타난다. 비정형 데이터를 분석하기 위해서는 비정형화를 정형화로 만드는 정형화 데이터 애플리케이션이 필요한 것이고, 정형화 애플리케이션의 성능에 따라 데이터 분석의 효과 차이가 생길 수 있다. 최근 텍스트, 음성, 영상 데이터를 활용해 데이터를 분석하려는 것에 관심 많은 곳이 국방 분야이다.
질적자료 vs 양적자료
데이터의 기본적인 형태를 살펴보자면 기본적으로 질적 자료 (Qualitative Data)와 양적 자료 (Quantitative Data)로 나뉘게 되며, 다시 양적 자료는 이산형 자료(Discrete Data)와 연속형 자료(Continuous Data)로 나뉘게 된다. 간단하게 설명을 하자면 질적 자료는 숫자가 아닌 자료이며, 양적자료는 숫자로 되어있는 자료라고 풀이할 수 있다. 예를 들어 “오늘 날씨는 춥다.” 라는 정보는 수치화 시킬 수 없는 질적 자료의 영역에 해당하며, “오늘의 날씨는 -10°C”이라는 정보에서 -10은 숫자로 되어있는 양적 자료라고 할 수 있다. 그리고 이산형 자료와 연속형 자료를 구분하는 가장 쉬운 방법은 한 개 두 개, 한 명 두 명, 한 병 두 병 등 숫자를 세어서 나오는 자료(Counted Data)를 이산형 자료라 설명할 수 있다. 연속형 자료는 체중, 온도, 길이 등 측정된 자료(Measured)라고 설명할 수 있다. 즉, -10°C이라는 예문은 양적 자료이지만, 더욱 자세히 설명하자면 연속형 자료라는 사실을 알 수 있다.
<참고>
http://www.kinews.net/news/articleView.html?idxno=72757 <정형 데이터와 비정형 데이터의 차이는 무엇?>
'4차 산업 혁명 > 빅데이터 Big Data' 카테고리의 다른 글
통계와 빅데이터 (0) | 2018.03.09 |
---|---|
기업들의 빅데이터 활용 방법 (0) | 2018.02.25 |
데이터 분석이란 (2) | 2018.01.10 |
빅데이터의 이해 (0) | 2018.01.09 |