다잇소


[IT/트랜드] [디지털R&D랩] 데이터 분석 – 데이터마이닝(분류, 예측)

2019.10.10
이번 시간에는 데이터 마이닝은 무엇인지 그리고 데이터 마이닝 방법 중 하나인 분류 분석에 대하여 자세히 살펴보겠습니다.

 

데이터 마이닝이란 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정입니다. 이러한 데이터 마이닝에는 새롭게 나타난 현상을 검토하여 기존의 분류, 정의된 집합에 배정하는 분류, 주어진 입력 데이터를 사용하여 알려지지 않은 결과의 값을 추정하는 추정, 현재의 데이터가 내포하고 있는 경향을 분석하여 미래를 예측하는 예측, 일련의 거래〮사건들 간의 규칙을 발견하기 위해 적용하는 연관분석, 이질적인 모집단을 동질성을 지닌 그룹별로 세분화하는 군집, 데이터가 암시하는 바에 대해 설명이 가능해야 하며, 설명에 대한 답을 찾아낼 수 있어야 하는 기술로 나뉘어집니다.

 

오늘은 분류 분석과 예측 분석에 대하여 자세히 살펴보겠습니다.

분류/예측 분석을 위해 사용되는 모형에는 로지스틱 회귀, 의사결정 나무, 앙상블 모형 등등이 있습니다.

 

첫 번째, 로지스틱 회귀는 반응변수가 범주형인 경우의 회귀분석 모형으로 새로운 설명변수의 값이 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지 추정하여 기준치에 따라 분류하는 목적으로 사용됩니다. 이 때, 반응변수의 각 범주에 속할 확률이 얼마인지 추정하는 방식은 예측 모형으로도 사용 가능합니다.

로지스틱 회귀의 그래프 형태는

로지스틱

로 기준값보다 크면 Y = 1 집단으로, 작으면 Y = 0 집단으로 분류됨을 의미합니다.

이러한 모형에 대한 해석은 독립변수가 한 단위 증가할 때마다 Y = 1 일 오즈가 exp()배 증가한다고 할 수 있습니다.

 

두 번째, 의사결정 나무는 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법으로 하위노드 내에서는 동질성이, 노드 간에는 이질성이 크도록 기준을 선택해야 합니다.

 

분석과정에서 분석 목적과 자료 구조에 따라 적절한 분리 기준과 정지규칙을 정하여 의사결정나무를 생성하면 다음과 같습니다.

의사결정나무

Iris 데이터에 대한 위 그래프의 해석입니다. Petal.Length < 2.45인 경우에 붓꽃의 종이 setosa로 예측되며, 이에 해당하는 50개 데이터 모두가 실제로 setosa임을 알 수 있습니다. 마찬가지로 Petal.Length >= 2.45, Petal.Width < 1.75 인 경우 붓꽃의 종이 versicolor로 예측되는데, 이 조건에 해당하는 54개 데이터 중 49개가 실제로 versicolor였음을 알 수 있습니다.

여기서 predict함수를 사용하면 다음과 같이

 

의사결정_예측

붓꽃의 종류를 예측해볼 수도 있습니다.

 

세 번째는 앙상블 모형입니다. 앙상블 모형은 여러 개의 분류 모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법으로 대표적인 랜덤 포레스트에 대해 알아보겠습니다.

랜덤 포레스트는 여러 개의 의사 결정 나무로 구현한 것으로 원자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리를 형성하고 각 노드마다 모든 예측변수 안에서 최적의 분할을 선택하는 방법 대신 임의로 추출된 예측 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용한 모델입니다. 이렇게 예측된 결과는 의사결정 나무보다 높은 정확도를 달성할 수 있습니다.

랜덤

위 결과는 앞서 의사결정나무 모형에서 사용되었던 붓꽃 종류를 나타내는 iris 데이터를 랜덤포레스트 모형으로 돌려본 결과로, 의사결정 나무가 500개 사용되었고, 나무가 2번씩 분리되었으며, 데이터 에러 추정치가 4.67%로 정확도가 매우 높음을 확인할 수 있습니다.

 

지금까지 데이터 마이닝의 종류인 분류와 예측에 대해서 알아보았습니다. 다음 시간에는 군집분석에 대해서 알아보겠습니다.

 

감사합니다.

 

 
설정된 프로필 사진이 없습니다.
| Member
관심분야

TAG >
http://daitso.kbhub.co.kr/88429/ 주소복사
카테고리 레이어 닫기