일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 삼성역량테스트
- 자료구조
- 포스코 AI교육
- 삼성코테
- bfs문제
- 딥러닝
- DP문제
- 삼성코딩테스트
- 코딩테스트
- 컴퓨팅사고
- 초소형머신러닝
- TensorFlow Lite
- 포스코 ai 교육
- dfs
- 그리디
- 다이나믹프로그래밍
- 코테 문제
- DP
- 삼성역테
- tinyml
- 임베디드 딥러닝
- BFS
- sort
- MCU 딥러닝
- tflite
- 영상처리
- dfs문제
- 알고리즘
- 코테
- 포스코 교육
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 5 본문
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.
이전 강의까지 머신러닝 기법 중 SVM 의사결정나무 랜덤포레스트 KNN 등에 대해서 알아볼 수 있었다.
이번 강의에서는 군집분석 : 비지도학습 에 대해 알아본다.
차례 :
- 군집분석과 유사성 척도
- 계층적 군집분석
- 비계층적 군집분석
군집분석과 유사성 척도
군집분석은 비지도학습으로 속성변수들의 특징으로 그룹화한다.
타겟변수 값이 없는 경우에 비지도학습이라고 불린다.
군집분석이란 :
유사한 속성을 가진 객체들을 군집으로 묶어주는 데이터마이닝 기법이다.
방법
- 계층적방법
- 비계층적방법
계층적방법 (Hierarchical Clustering)
- 사전에 군집 수 k를 정하지 않고 단계적으로 군집 트리를 제공
비계층적방법 (Non-hierarchical Clustering)
- 사전에 군집 수 k를 정한 후 각 객체를 k개 중 하나의 군집에 배정
유사성 척도
객체간 유사성 정도를 정량적으로 나타내기 위해서 척도가 필요
- 거리척도 : 거리 가까울 수록 유사도가 높다.
- 상관계수척도 : 상관계수가 높을 수록 유사도가 높다.
거리척도 : 유클리드거리, 민코프스키거리, 마할라노비스 거리 등이 있다.
계층적 군집분석
사전에 군집 수 k를 정하지 않고 단계적으로 군집을 형성하는 방법
- 유사한 객체들을 군집으로 묶고, 그 군집을 기반으로 그와 유사한 군집을 새로운 군집으로 묶어가며 군집을 계층적으로 구성하는 것
묶는 방법 :
- 단일연결법 single linkage method
- 완전연결법 complete linkage method
- 평균연결법 average linkage method
- 중심연결법 centroid linkage method
단일연결법 :
군집 간 두 군집의 모든 객체쌍의 거리 중 가장 가까운 거리르 사용하여 가까울수록 상관도가 높은것
완전연결법 :
가장 먼거리의 객체를 계산하여 비교
평균연결법 :
모든 객체의 거리를 평균을 계산하여 비교한다
중심연결법 :
두 군집의 중심좌표를 비교한다.
비계층적 군집분석
K-means 알고리즘과 K-medoids 알고리즘이 대표적으로 존재한다.
또한 K-medoids 알고리즘은 PAM 방법과 CLARA 방법으로 나뉜다.
K-means 군집분석
K-means군집분석은 비계층적 군집분석 중 가장 널리 사용된다.
k개 군집의 중심좌표를 고려하여 각 객체를 가장 가까운 군집에 배정하는 것을 반복한다.
단계 :
- k개 객체 좌표를 초기 군집 중심좌표로 선정한다
- 각 객체와 k개 중심좌표와의 거리를 산출한 후 가까운 군집에 객체를 배정한다.
- 새로운 군집의 중심좌표를 산출한다
- 새로 산출된 중심 좌표값과 이전 좌표값을 비교하여 수렴조건 내에 들면 종료한다
R에서 kmeans로 사용할 수 있다.
k를 바꿔주며 클러스터링을 진행할 수 있다. 몇개의 분류일지는 모르므로 바꿔가면서 찾아간다.
K-medois 군집분석
각 군집의 대표객체(medois)를 고려한다
대표객체란 군집 내 다른 객체들과의 거리가 최소가 되는 객체이다.
즉 K-medois 군집분석은 객체들을 K개의 군집으로 구분하는데, 객체가 속하는 군집의 대표 객체와의 거리 총합을 최소로 하는 방법이다.
PAM :
- 모든 객체에 대해서 대표 객체가 변했을 때 발생하는 거리 총합의 변화를 계산한다.
CLARA :
- 적절한 수의 객체를 샘플링 한 후, PAM 으로 대표 객체를 선정한다. 이후 샘플링을 여러번 하여 가장 좋은 결과를 택하는 방법이다.
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 7 (0) | 2021.04.04 |
---|---|
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 6 (0) | 2021.04.04 |
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 4 (0) | 2021.04.04 |
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 3 (0) | 2021.04.04 |
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 2 (0) | 2021.04.04 |