다잇소


[IT/트랜드] [디지털R&D랩] 데이터 분석 – 군집분석

2019.10.14
안녕하세요, 디지털 R&D 랩 김다솜 사원입니다.

 

이번 시간에는 군집분석에 대해서 알아보겠습니다.

 

군집분석이란 앞서 설명했던 분류/예측 분석과는 달리 타겟변수(종속변수)가 존재하지 않는 비교사 학습법 중 하나로 오로지 개체들 간의 유사성에만 기초하여 군집을 형성하는 분석 방법입니다.

 

군집 분석은 계층적 군집과 비계층적 군집으로 나뉘고 계층적 군집은 또, 병합적 방법과 분할적 방법으로 나뉩니다.

계층적 군집은 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법으로 계통도 혹은 덴드로그램(Dendrogram)의 형태로 결과가 주어집니다.

dendrogram

 

계층적 군집의 병합적 방법은 작은 군집으로부터 출발하여 군집을 병합해 나가는 방법으로 한 개의 항목으로 시작하여 군집을 형성해 나가는 매 단계마다 모든 그룹 쌍 간의 거리를 계산하여 가까운 순으로 병합을 수행하는 방법입니다.

 

계층적 군집의 분할적 방법은 병합적 방법과는 반대로 큰 군집으로부터 출발하여 군집을 분리해 나가는 방법으로 매 단계마다 그룹 내 거리를 계산하여 그룹의 분할을 수행하는 방법입니다.

 

두 방법의 과정에서 가장 중요한 부분은 거리를 측정하는 것입니다. 거리를 측정하는 방법에는

첫 번째는 최단 연결법, 단일 연결법이라고도 하며, 군집 내 데이터들 중 가장 가까운 데이터들의 거리로 그룹을 산정하는 방법

두 번째는 최장 연결법, 완전 연결법이라고도 하며, 군집 내 데이터들 중 가장 먼 데이터들의 거리로 그룹을 산정하는 방법

세 번째는 중심 연결법, 두 군집의 중심간의 거리로 그룹을 산정하는 방법

네 번째는 평균 연결법, 모든 항목에 대한 거리 평균을 구하면서 군집화를 진행

다섯 번째는 와드 연결법, 군집 내 오차 제곱합에 기초하여 군집을 수행

로 다섯가지가 존재합니다.

 

비계층 군집분석에는 대표적으로 K-Means Clustering이 있는데 원하는 군집 수만큼(K) 초기값을 지정하고, 각 개체(데이터)를 가까운 초기값에 할당하여 군집을 형성한 뒤, 각 군집의 평균을 재계산하여 초기값을 갱신하는 방법입니다.

 

K-Means Clustering 의 절차는 다음과 같습니다. 초기 중심으로 K개의 객체를 임의로 선택하고, 각 자료를 가장 가까운 군집 중심에 할당한 뒤 군집 내의 자료들의 평균을 계산하여 군집의 중심을 갱신합니다. 이 과정을 군집 중심의 변화가 거의 없을 때까지 반복하여 수행합니다.

 

이러한 과정을 거쳐 만들어진 모형은 잡음이나 이상값에 영향을 많이 받는다는 단점이 있지만 알고리즘이 단순하여 빠르게 수행되고 계층적 군집보다 많은 양의 자료를 다룰 수 있다는 장점이 큰 메리트로 작용하여 군집 분석 방법 중 가장 많이 사용되는 방법 중 하나로 통합니다.

 

지금까지 여러 개의 변수 값들로부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특성을 파악하여 군집들 사이의 관계를 분석하는 군집분석에 대하여 알아보았습니다.

다음시간에는 연관분석에 대하여 알아보겠습니다.

감사합니다.
설정된 프로필 사진이 없습니다.
| Member
관심분야

TAG >
http://daitso.kbhub.co.kr/88532/ 주소복사
카테고리 레이어 닫기