다잇소


[IT/트랜드] [디지털R&D랩] 데이터 분석 – 주성분분석

2019.10.07
안녕하세요, 디지털 R&D 랩 김다솜 사원입니다.

이번 시간에는 주성분 분석에 대해서 알아보겠습니다.

 

주성분 분석은 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법입니다. 차원이 커질수록 한정된 자료는 커진 차원의 패턴을 잘 설명하지 못하기 때문에 주로 자료의 차원을 축약시키는데 사용됩니다. 또한 쓸데 없는 변수(상관계수가 큰 서로 다른 독립 변수, 예측하고자 하는 변수와 관련 없는 변수)를 제거하여 예측 모형을 만들 때에도 사용합니다.

 

이번 시간에는 주성분 분석의 첫 번째 기능인 자료의 차원을 축약하는 방법에 대하여 예제를 보며 알아보겠습니다

 

이 예제는 미국의 50개 주의 인구 10만명 당 살인, 폭행, 강간으로 인한 체포의 수와 도시 인구의 비율을 포함하고 있는 자료입니다.

princomp()

위 결과는 데이터 USArrests R 함수 princomp를 이용하여 수행되었고, 그 결과는 fit이라는 이름으로 저장하였습니다. 그리고 이를 summary 함수를 통해 결과를 확인하였습니다. 첫 번째 주성분은(comp.1) 전체 분산의 62%를 설명하고 있고, 순서대로 24.7%, 8.9%, 4.3%로 전체 분산을 설명하고 있습니다. , 주성분의 개수를 선택할 때 전체 분산을 85% 이상 설명하는 주성분만 선택하면 되는데, 위 결과에서는 누적 분산 비율 86.7%에 해당하는 두 번째 주성분까지만 선택하면 된다.

 

plot(fit, type)

이 그림은 각 주성분의 분산의 크기를 그림으로 나타낸 것으로 스크리 그림(scree plot)이라고 합니다. 이를 통해서 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정하기도 합니다.

 

 

biplot(fit)

위 그림은 biplot으로 관측치들을 첫 번째와 두 번째 주성분의 좌표에 그린 그림입니다. 위 그림에서 첫 번째 주성분이 Assault, Murder, Rape와 비슷한 방향을 가지고 UrbanPop과 방향이 수직에 가까운 것으로 보아 첫 번째 주성분은 주로 Assault, Murder, Rape 변수들에 대해, 두 번째 주성분은 주로 UrbanPop 변수에 대해 상대적으로 큰 가중치를 적용하여 계산된 것을 확인할 수 있습니다. 즉 첫 번째 주성분의 값이 작을수록 세가지(Assault, Murder, Rape) 범죄 발생율이 큰 주이고 두 번째 주성분의 값이 작을수록 도심인구 비율이 큰 주라고 해석 할 수 있다.

 

지금까지 변수들의 관계를 통해 차원을 축소하는 주성분 분석에 대하여 알아보았습니다. 다음시간에는 시간의 흐름에 따른 패턴을 분석할 수 있는 시계열 분석에 대하여 알아보겠습니다.


감사합니다.


 

 
설정된 프로필 사진이 없습니다.
| Member
관심분야

TAG >
http://daitso.kbhub.co.kr/88378/ 주소복사
카테고리 레이어 닫기