정형 데이터 vs 비정형 데이터 데이터는 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터가 있다. 데이터를 구분하는 기준으로 스키마(schema) 형태의 유무, 즉 형태가 있느냐 없느냐가 우선 분류기준이다. 또한 형태가 있으면서 연산가능(calculable)한 것인지, 연산 불가능한 것인지가 그 다음 기준이다. 형태가 있고 연산가능하면 정형 데이터이다. 대표적으로 키와 몸무게가 있다. 형태가 있으나 연산가능하지 않으면 반정형 데이터에 속한다. 로그 등이 대표적이다. 비정형 데이터는 형태도 없고, 연산 가능하지도 않은 것을 말한다. 우리가 흔히 말하는 소셜 데이터가 이에 속하며 텍스트, 영상, 음성 등의 형태로 나타난다. 비정형 데이터를 분석하기 위해서는 비정형화를 정형화로 만드는 정형화 데이터 ..
빅데이터란 디지털 환경에서 생성되는 대규모 데이터를 말합니다. 빅데이터의 형태는 수치형 데이터부터 텍스트를 포함한 머신데이터 등으로 다양합니다. 시장조사기관 IDC는 2017년 세계 빅데이터 및 분석 시장이 전년대비 12.4% 성장하며 1508억달러(약 171조원) 규모에 달할 것이라고 했습니다. 2017년 빅데이터 및 솔루션에 대한 투자 비중이 높을 것으로 예상되는 산업은 뱅킹, 조립제조, 공정제조, 연방·중앙정부, 전문 서비스 분야입니다. 빅데이터가 등장한 배경으로 첫째, 디지털 환경에서의 지속적으로 축적된 데이터 둘째, 데이터 과학이라는 새로운 학문의 등장 셋째, 대용량 처리를 위한 분산처리 및 저장기술의 등장이 있습니다. 빅데이터의 특징은 규모(Volume), 속도(Velocity), 다양성(Va..
- Total
- Today
- Yesterday