정형 데이터 vs 비정형 데이터 데이터는 형태에 따라 정형 데이터, 반정형 데이터, 비정형 데이터가 있다. 데이터를 구분하는 기준으로 스키마(schema) 형태의 유무, 즉 형태가 있느냐 없느냐가 우선 분류기준이다. 또한 형태가 있으면서 연산가능(calculable)한 것인지, 연산 불가능한 것인지가 그 다음 기준이다. 형태가 있고 연산가능하면 정형 데이터이다. 대표적으로 키와 몸무게가 있다. 형태가 있으나 연산가능하지 않으면 반정형 데이터에 속한다. 로그 등이 대표적이다. 비정형 데이터는 형태도 없고, 연산 가능하지도 않은 것을 말한다. 우리가 흔히 말하는 소셜 데이터가 이에 속하며 텍스트, 영상, 음성 등의 형태로 나타난다. 비정형 데이터를 분석하기 위해서는 비정형화를 정형화로 만드는 정형화 데이터 ..
많은 사람이 오프라인보다 온라인에서 많은 시간과 돈을 사용하고 있다. 오프라인과 달리 온라인은 디지털 로그를 통해 소비자의 행동패턴을 데이터로 분석하는 것이 가능하다. 이에 따라 데이터를 활용할 수 있는 역량은 매우 중요해졌다. 데이터 분석은 분석의 대상에 대한 문제점을 찾고, 해결할 데이터를 수집 분석하여 해결방안을 찾아 이를 업무와 시스템에 도입하는 것을 의미한다. 데이터 분석은 문제의 발견, 데이터 수집 및 가공, 데이터 분석 및 액션의 과정을 통하여 이루어진다. 먼저 문제의 발견은 기업 문제 파악, 문제에 대한 정의, 데이터 분석 문제 전환 과정을 말한다. 다음으로 데이터 수집 및 가공은 데이터 현황 파악, 개인정보보호 검토, 수집방안 검토, 활용타당성 검토, 데이터 전처리, 활용을 위한 품질점검..
구글 애널리틱스를 활용할 때 자주 사용하는 기능이 동질집단 분석(코호트 분석)입니다. 코호트란 같은 그룹을 의미하며, 유사한 것을 모아 그 부분만을 집중적으로 살펴보는 것을 말합니다. 즉, 고객을 기간별로 같은 그룹으로 나누어 각 그룹의 사용자들이 어떤 행동을 보이는 지 확인할 수 있습니다. 코호트 분석은 MRI로 비유할 수 있습니다. 외형적인 지수나 경영상태만보고 경영의 심각한 문제점이 보이지 않지만, 내부를 면밀히 검토해보면 드러나지 않은 심각한 문제를 내포하고 있는 경우가 있습니다. 예를 들어 신규 고객도 1,000명씩 늘어나고 있고, 월 매출도 괜찮아 보이는 기업도 코호트 분석을 하면 심각한 문제가 있음을 확인할 수 있습니다. 고객의 구매패턴을 조사해본 결과 가입 월에는 많은 구매를 하지만, 가입..
- Total
- Today
- Yesterday