다잇소


[IT/트랜드] [디지털R&D랩] 데이터분석 – 분석 기획

2019.09.20
 

안녕하세요. 디지털R&D랩 김다솜 사원입니다.

이번 시간부터 데이터 분석에 대하여 소개하겠습니다.

 

데이터 분석을 시작하기에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업인 분석 기획에 대해 알아보도록 하겠습니다.

 

분석 기획은 분석 프로젝트를 실질적으로 수행하는 것은 아니지만 어떠한 목표(What)을 달성하기 위해(Why) 어떠한 데이터를 가지고 어떤 방식(How) 수행할 지에 대한 일련의 계획을 수립하는 작업이기 때문에 성공적인 분석 결과를 도출하기 위한 중요한 사전 작업입니다.

 

이 때 데이터 분석을 수행하는 데 있어서 분석가는 수학/통계학적 지식 및 해킹 기술(IT 기술 등) 뿐만 아니라 해당 비즈니스에 대한 이해와 전문성이 모두 고르게 요구되어야 함을 주의해야 하며, 이외에도 프로젝트 관리 역량, 리더십 역량 등이 필요합니다.

 

앞서 언급했듯 분석을 위한 일련의 계획을 수립하기 위해 분석 대상(What)과 분석 방식(How)이 중요합니다. 이 두 가지에 따라 분석 주제 유형이 4가지로 나누어지기 때문입니다.

 

분석의 대상이 무엇인지를 인지하고 있는 경우(known), 즉, 해결해야 할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우에는 1)개선을 통한 최적화(Optimization)의 형태로 분석이 수행되고, 방법을 모르는 경우에는 해당 분석 주제에 대한 2)솔루션(Solution)을 찾아내는 방식으로 수행됩니다. 분석의 대상이 명확하게 무엇인지 모르는 경우(Un-Known)에는, 기존 분석 방식을 활용하여 새로운 지식인 3)통찰(Insight)을 도출해냄으로써 문제의 도출 및 해결에 기여하거나, 4)발견(Discovery) 접근법으로 분석의 대상 자체를 새롭게 도출할 수 있습니다.

 

분석 주제



이 때 분석 기획 시 주의사항이 있습니다. 1) 가용할 데이터, 2) 적적할 유스케이스, 3) 분석 과제 수행을 위한 장애요소 입니다. 1) 데이터는 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 합니다. 2) 기존에 잘 구현되어서 활용되고 있는 유사 분석 시나리오 및 솔루션이 있다면 최대한 활용하여 원활한 분석을 수행하는데 도움이 될 수 있도록 합니다. 끝으로 3) 분석을 수행함에 있어서 발생하는 장애요소들에 대한 사전 계획 수립이 필요합니다.

 

이번에는 데이터 분석을 효과적으로 기업 내 정착시키기 위해 체계화된 절차와 방법이 정리된 데이터 분석 방법론 중 KDD 분석 방법론, Crisp-dm 분석 방법론, 빅데이터 분석 방법론 3가지를 알아보겠습니다.

 

첫 번째, KDD 분석 방법론입니다.

KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 체계적으로 정리한 데이터 마이닝 프로세스로써 데이터베이스에서 의미 있는 지식을 탐색하는 데이터 마이닝부터, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있습니다.

분석 프로세스는 다음과 같습니다. 1) 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트의 목표를 정확하게 설정한 뒤 데이터 베이스에서 분석에 필요한 데이터 셋을 선택합니다. 2) 데이터셋에 포함되어 있는 잡음과 이상값, 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 처리하는 데이터 전처리 과정을 진행합니다. 3) 분석용 데이터셋이 편성되면 분석 목적에 맞는 변수를 선택하거나 차원을 축소하는 데이터 변환이 이루어집니다. 4) 데이터 변환 프로세스를 거쳐 만들어진 분석용 데이터셋을 이용하여 분석목적에 맞는 데이터 마이닝 기법을 선택하고 데이터 마이닝 알고리즘을 선택하여 마이닝 작업을 시행합니다. 5) 마지막으로 데이터 마이닝 결과에 대한 해석과 평가 그리고 분석 목적과의 일치성을 확인하는 작업을 수행하고 필요에 따라 데이터셋 선택 프로세스부터 데이터 마이닝 프로세스를 반복하여 수행하며 분석 결과의 정확도를 높힐 수 있도록 합니다.

두 번째, Crisp-DM 분석 방법론입니다.

Crisp-DM은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었고, 1999년 첫 버전을 발표하였고, Crisp-DM 프로세스는 6단계로 구성되어 있습니다.

  • 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하여 초기 프로젝트 계획을 수립하는 업무 이해 단계.

  • 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 데이터 품질에 대한 문제점을 식별하고 숨겨진 인사이트를 발견하는 데이터 이해 단계

  • 분석을 위하여 수집된 분석 기법에 적합한 데이터셋을 편성하는 데이터 준비 단계

  • 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 모델링 단계

  • 모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지를 평가하는 단계

  • 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하고 모니터링과 모델의 유지보수 계획을 마련하는 전개 단계


로 진행됩니다. Crisp-DM 분석 방법론은 폭포수 모델처럼 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있습니다.

crisp-dm



세 번째, 계층적 프로세스 모델로도 불리는 빅데이터 분석 방법론입니다.

각 단계마다 여러 개의 태스크로 나뉘는 것이 특징이고, 5단계 프로세스를 거칩니다.

  • 비즈니스를 이해하고 도메인의 문제점을 파악하여 빅데이터 분석 프로젝트의 범위를 확정하는 분석기획 단계. 이 단계에서는 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립 3개의 태스크를 수행합니다.

  • 분석 기획에 근거하여 비즈니스 요구사항을 데이터 차원에서 다시 파악하고 프로젝트 별로 필요로 하는 데이터를 정의 하는 데이터 준비 단계. 이 단계에서는 데이터 확보뿐만 아니라 데이터 품질 확보를 위해 품질 통제와 품질 보증 프로세스도 수행합니다.

  • 데이터 준비 단계에서 확보된 데이터를 이용하여 프로젝트 목표를 달성하기 위하여 진행하는 데이터 분석 단계. 이 때 분석은 데이터의 종류에 따라 적절한 분석 방법을 도입하여 수행합니다.

  • 분석 기획의 의도에 맞는 모델을 데이터 분석 단계를 진행하여 도출하고 이를 운영중인 시스템에 적용하거나 프로토타입을 구현하고자 하는 경우 시스템 구현 단계를 진행합니다. 이 단계에서는 SDLC와 기업내 시스템 개발을 위하여 사용하고 있는 방법론을 커스터마이징하여 적용할 수도 있습니다.

  • 분석 기획 단계에서 수립된 프로젝트의 목적을 달성했는지의 여부를 평가하고 데이터 분석 단계와 시스템 구현 단계에서 구축된 모델의 발전계획을 수립하는 등 빅데이터 분석 프로젝트를 종료합니다.


 

 

마지막으로 분석 과제 도출 방식 2가지를 알아보겠습니다.

첫 번째는 하향식 접근 방식입니다. 문제가 주어지고 이에 대한 해법을 찾기 위하여 체계적으로 단계화하여 수행해 나가는 방식입니다.

두 번째는 상향식 접근 방식입니다. 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식입니다.

 

분석 과제 도출

 

문제가 주어져 있는 상태에서 답을 구하는 하향식 접근 방식이 전통적으로 수행되었던 분석 과제 발굴 방식입니다. 하지만 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업 환경에서는 문제 자체의 변화가 심해 정확하게 문제를 사전에 정의하는 것이 어려워지고 데이터를 통해 생각하지 못했던 인사이트를 도출하고 점차 개선해가는 상향식 접근 방식을 많이 사용해가는 추세입니다.

 

물론 중요한 의사결정을 해야 한다면 두 방식을 서로 교차해서 반복적으로 수행하는 것이 좋습니다. 상향식 접근 방식은 가능한 옵션을 모두 탐색하여 도출하고 하향식 접근 방식은 도출된 옵션을 모두 검증하기 때문에 최적의 의사결정을 도출할 수 있도록 도와줍니다.

디자인 사고 프로세스

 

본격적으로 데이터 분석을 알아보기에 앞서 데이터 분석 방법론에 대하여 알아보았습니다.

다음은 데이터 분석 방법론 중에서 수집된 다양한 데이터를 어떻게 분석하면 좋을지 알아보도록 하겠습니다. 감사합니다.
설정된 프로필 사진이 없습니다.
| Member
관심분야

TAG >
http://daitso.kbhub.co.kr/88061/ 주소복사
카테고리 레이어 닫기