코딩뚠뚠

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 5 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 5

로디네로 2021. 4. 4. 11:51
반응형

 

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io


 

이전 강의까지 머신러닝 기법 중 SVM 의사결정나무 랜덤포레스트 KNN 등에 대해서 알아볼 수 있었다.

 

이번 강의에서는 군집분석 : 비지도학습 에 대해 알아본다.

 

차례 :

  • 군집분석과 유사성 척도
  • 계층적 군집분석
  • 비계층적 군집분석

 


 

 

군집분석과 유사성 척도

 

군집분석은 비지도학습으로 속성변수들의 특징으로 그룹화한다. 

 

타겟변수 값이 없는 경우에 비지도학습이라고 불린다.

 

 

군집분석이란 :

 

유사한 속성을 가진 객체들을 군집으로 묶어주는 데이터마이닝 기법이다.

 

방법

  • 계층적방법
  • 비계층적방법

 

계층적방법 (Hierarchical Clustering)

  • 사전에 군집 수 k를 정하지 않고 단계적으로 군집 트리를 제공

단계적으로 분류했더니 이렇게까지 분류된다 내려갈수록 세분화될것

 

비계층적방법 (Non-hierarchical Clustering)

  • 사전에 군집 수 k를 정한 후 각 객체를 k개 중 하나의 군집에 배정

 

 

유사성 척도

 

객체간 유사성 정도를 정량적으로 나타내기 위해서 척도가 필요

  • 거리척도 : 거리 가까울 수록 유사도가 높다.
  • 상관계수척도 : 상관계수가 높을 수록 유사도가 높다.

 

거리척도 : 유클리드거리, 민코프스키거리, 마할라노비스 거리 등이 있다.

 

 

 


 

 

 

계층적 군집분석

 

사전에 군집 수 k를 정하지 않고 단계적으로 군집을 형성하는 방법

 

- 유사한 객체들을 군집으로 묶고, 그 군집을 기반으로 그와 유사한 군집을 새로운 군집으로 묶어가며 군집을 계층적으로 구성하는 것

 

묶는 방법 : 

  • 단일연결법 single linkage method
  • 완전연결법 complete linkage method
  • 평균연결법 average linkage method
  • 중심연결법 centroid linkage method

단일연결법 : 

군집 간 두 군집의 모든 객체쌍의 거리 중 가장 가까운 거리르 사용하여 가까울수록 상관도가 높은것

 

완전연결법 :

가장 먼거리의 객체를 계산하여 비교

 

평균연결법 : 

모든 객체의 거리를 평균을 계산하여 비교한다

 

중심연결법 : 

두 군집의 중심좌표를 비교한다.

 

 

 


 

 

비계층적 군집분석

 

K-means 알고리즘과 K-medoids 알고리즘이 대표적으로 존재한다.

 

또한 K-medoids 알고리즘은 PAM 방법과 CLARA 방법으로 나뉜다.

 

 

K-means 군집분석

 

K-means군집분석은 비계층적 군집분석 중 가장 널리 사용된다.

 

k개 군집의 중심좌표를 고려하여 각 객체를 가장 가까운 군집에 배정하는 것을 반복한다.

 

단계 : 

  • k개 객체 좌표를 초기 군집 중심좌표로 선정한다
  • 각 객체와 k개 중심좌표와의 거리를 산출한 후 가까운 군집에 객체를 배정한다.
  • 새로운 군집의 중심좌표를 산출한다
  • 새로 산출된 중심 좌표값과 이전 좌표값을 비교하여 수렴조건 내에 들면 종료한다

R에서 kmeans로 사용할 수 있다.

 

k를 바꿔주며 클러스터링을 진행할 수 있다. 몇개의 분류일지는 모르므로 바꿔가면서 찾아간다.

 

 

K-medois 군집분석

 

각 군집의 대표객체(medois)를 고려한다

 

대표객체란 군집 내 다른 객체들과의 거리가 최소가 되는 객체이다.

 

즉 K-medois 군집분석은 객체들을 K개의 군집으로 구분하는데, 객체가 속하는 군집의 대표 객체와의 거리 총합을 최소로 하는 방법이다.

 

PAM :

  • 모든 객체에 대해서 대표 객체가 변했을 때 발생하는 거리 총합의 변화를 계산한다.

 

CLARA :

  • 적절한 수의 객체를 샘플링 한 후, PAM 으로 대표 객체를 선정한다. 이후 샘플링을 여러번 하여 가장 좋은 결과를 택하는 방법이다.

 

 

반응형