일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 포스코 교육
- 삼성역량테스트
- 자료구조
- 컴퓨팅사고
- 삼성역테
- dfs
- 코테 문제
- tinyml
- DP
- BFS
- bfs문제
- 다이나믹프로그래밍
- TensorFlow Lite
- 삼성코딩테스트
- 포스코 AI교육
- 딥러닝
- 포스코 ai 교육
- tflite
- dfs문제
- 초소형머신러닝
- 그리디
- 임베디드 딥러닝
- 삼성코테
- 코테
- 코딩테스트
- sort
- 영상처리
- 알고리즘
- MCU 딥러닝
- DP문제
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 4 본문
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.
이전 강의 SVM에 이어 이번 강의에서는 의사결정나무와 랜덤포레스트에 대해 배웠다.
이또한 머신러닝 기법중 하나로 이를 배우게 된다면 KNN, 판별분석, SVM, 의사결정나무, 랜덤포레스트 총 다섯가지의 기법을 배우게 된다.
의사결정나무 1
기계학습 중 하나로 의사결정 규칙을 나무형태로 분류해나가는 분석기법
특징
- 분석과과정이 직관적, 이해하기 쉬움
- 연속형/범주형 변수를 모두 사용 가능
- 분지규칙은 불순도(범주들이 섞여있는 정도)를 최소화시킴
과정
- tree형성 (너무 많으면 과적합)
- tree 가지치기
- 최적 tree로 분류
의사결정나무 실행 패키지 : tree 를 사용할 수 있다.
가지를 쳐 가면서 각 class 별로 분류가 다 되게 되면 더이상을 가지를 칠 필요가 없게 된다.
Tree를 형성할 때 복잡도 계수의 값이 최소가 되는 노드를 선택
의사결정나무 2
R에서 rpart, party 패키지를 이용할 수 있다.
이는 분지를 하면서 분류분석을 하는 모델이다.
rpart패키지에서 rpart 함수는 tree패키지에서 pruning 한 결과와 동일하다.
party 패키지에서 ctree 함수를 쓸 수도 있는데 분지되는 포인터를 p value를 통해 잡는다.
tree / rpart / party는 동일하게 의사결정 나무를 사용할 수 있는 패키지이다. 데이터에 따라서 선택사여 사용하면 될 것이다.
랜덤 포레스트 (Random Forest)
의사결정나무의 단점(과적합)을 개선한 알고리즘이다.
Ensemble (앙상블:결합) 기법을 사용한 모델로서 주어진 데이터로 리샘플링을 통해 다수의 의사결정나무를 만든 다음, 여러 모델의 예측결과들을 종합해 정확도를 높이는 방법이다.
과정
- training data로부터 표본크기가 n인 bootstrap sample 을 추출한다
- tree모형을 구성한다
- 각 모델 tree들의 앙상블 결과를 출력한다.
Bagging (Bootstrap Aggregating)
- 전체 데이터에서 학습데이터를 복원추출 트리를 구성
- Training Data에서 Random Sampling
R에서 randomForest 패키지를 사용하여 랜덤포레스트를 구현할 수있다.
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 6 (0) | 2021.04.04 |
---|---|
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 5 (0) | 2021.04.04 |
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 3 (0) | 2021.04.04 |
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 2 (0) | 2021.04.04 |
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1 (0) | 2021.04.03 |