코딩뚠뚠

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 3 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 3

로디네로 2021. 4. 4. 00:58
반응형

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

 


 

이전강의까지 KNN 과 판별분석 방법에 대해 알아볼 수 있었다.

 

이번강의에서는 서포트 벡터머신에 대해 알아본다.

 

서포트벡터머신 SVM은 가장 많이 들어본 머신러닝 기법중 하나이다.

 

딥러닝이 활개치고 있는 가운데 굳건한 SVM 은 뭘까 궁금했었는데 들을 기회가 되어 주의깊게 수강했다.

 

 

 


 

 

서포트벡터머신

서포트벡터머신은 classification을 수행하는 모델이다.

 

장점 :

  • 정확도가 상대적으로 좋음
  •  다양한데이터 (연속형, 범주형) 사용가능

 

단점 : 

  • 해석하기 어려움
  • 데이터가 많을때 속도가 걸림

 

선형 SVM

두 개의 범주가 있을때 이를 가장 잘 분류하는 벡터를 찾는 문제이다.

 

H1 과 H2 간의 거리를 최대로 하는 분리 하이퍼 플레인을 찾아야 한다.

 

(선형모델을 만들었을 때 그 그래프로부터 가장 가까운 A 분류의 점이 H1 B 분류의 점이 H2 이다.)

 

 

비선형 SVM

비선형 패턴의 입력공간을 선형패턴의 feature space 로 변환

 

Kernel method로 비선형 경계면 도출

 

 

SVM 패키지는 R에서 e1071 패키지로 이용할 수 있다.

 

 

커널(kernel함수)

  • x의 기저함수
  • x에 대한 새로운 특징을 추출하는 변환함수

커널함수로는 대표적으로

radial (default)

polynomial

sigmoid 등이 있다.

 

오분류율 교차포 (confusion matrix) 생성을 위한 패키지 : caret

 

 

각 커널별로 데이터를 분류했을 때 정확도를 확인해볼 수 있었다.

반응형