본문 바로가기
공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 7

by 로디네로 2021. 4. 4.
반응형

 

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io


 

목차 : 

주성분 분석과 부분 최소자승법

  • 주성분 분석
  • 주성분 회기분석
  • Partial Least Square Regression

 


 

 

주성분분석 (Principle Component Analysis)

 

다변량 분석 기법

 

주성분 이라고 불리는 선형조합으로 표현하는 기법이다.

주성분은 공분산으로부터 eignvector와 eigenvalue를 도출하여 계산된다.

 

주성분간의 수직관계

  • 1st 주성분(PC1) : 독립변수들의 분산을 가장 많이 설명하는 성분
  • 2nd주성분(PC2) : 주성분1과 수직인 주성분 (PC1이 설명하지 못하는 분산에 대해 설명한다)

 

최적 주성분을 어떻게 알 수 있을까?

 

- screeplot 을 그려보고 급격히 떨어지기 전까지의 PC를 선택한다.

 

주성분을 이용해 SVM을 수행해볼 수 있다.

 

- Iris dataset 을 돌려봤을 때 이를 classification 하기 위해 SVM을 바로 붙일 수도 있지만 주성분을 분석하여 이들을 PC1, PC2, PC3 ... 등으로 나눠놓고 SVM을 붙일 수도 있다.

 

 


 

주성분회귀 (Principle Component Regression)

 

독립변수들의 차원을 줄이기 위해 사용가능하다. 주성분을 이용하여 타겟변수의 예측력을 높일 수 있다.

 

독립변수들의 전체분산을 가장 잘 설명해주는 component를 사용하여 독립변수들간 다중공선성 문제 해결가능

 

다만 예측력을 보장하는 것은 아니다. 

(X의 분산을 가장 잘 설명하는 쪽으로 변환된 것이기 때문)

 

주성분 분석을 위한 함수 : prcomp

 

과정 :

  1. 데이터에 다중공선성이 있는지 체크
  2. 주성분 분석을 위한 데이터 전처리
  3. 주성분 분석
  4. 주성분 개수 결정
  5. 주성분으로 회귀 분석모형 수행

 

 

 


 

 

 

Partial Least Square Regression (PLS)

 

주성분분석과 PLS 의 차이 :

  • X의 정보를 분석하는게 주성분 분석(X의 분산 설명), PLS는 Y의 정보도 고려

 

 

특징 : 

  • iteration 하게 뽑아내며 최적의 값을 찾는다.
  • Chemometrics, Marketing 분야의 고차원데이터, 독립변수간 상관성 높은 데이터에 적용한다.

 

추가 패키지 : pls 설치

- 파라미터 중 ncomp : 잠재변수의 수 로 몇개의 컴포넌트를 생성해서 모델링을 할건지 결정

 

 

 

반응형

댓글