코딩뚠뚠

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1

로디네로 2021. 4. 3. 23:36
반응형

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

 


 

1강 데이터마이닝 기초

  • 데이터마이닝과 예측 - 다중회기분석1
  • 데이터마이닝과 예측 - 다중회기분석2
  • 데이터마이닝과 분류 - 분류규칙과 과적합
  • 데이터마이닝과 분류 - 학습데이터와 검증데이터

 

 


 

데이터마이닝과 예측 - 다중회기분석 1

데이터마이닝 기법중 예측 은 주어진 데이터를 기반으로 모델을 만든 후 y값을 예측한다.

 

적용기법으로는 다중회귀분석, 주성분 회귀분석, 부분최소자승법, 신경망 등이 있다.

예측과 분류는 다른 문제이다.

 

예측 (prediction)의 예시는

주식의 변동, 일기예보, 연봉 등이 있을 수 있고

 

분류 (classification)의 예시는

품종분류, 고객분류 등이 있을 것이다.

 

이에 따라 사용하는 기법의 차이는 위의 표에 제시되어있다.

 

 

다중회귀모형 (multiple regression)

종속변수 Y를 결정하기 위해서 k개의 독립변수들이 존재한다.

 

이들을 통해 각 변수들 간 관계를 확인할 수 있고 각 독립변수들에 의한  prediction을 수행할 수 있을 것이다.

 

 


 

 

데이터마이닝과 예측 - 다중회기분석 2

 

다수의 독립변수들이 있을 때 최종 모형은?

 

1) 전진선택법

: 독립변수 중 종속변수에 가장 큰 영향을 주는 변수

 

2) 후진선택법

: 독립변수를 모두 포함한 모형에서 가장 영향이 적은 변수부터 제거

 

3) 단계별방법

: 변수 추가시 기존 변수 중요도가 정해진 threshold 에 포함되지 않으면 제거되어버린

 

이 존재한다.

 

 

다중공선성 (Multicollinearity)

- 독립변수들 사이에 상관관계가 있는 현상

- 다중공선성이 존재하는 경우 회귀계수 해석이 불가능하다.

- 다중공선성의 척도 : 분산팽창계수 (VIF)

 

 


 

 

데이터마이닝과 분류 - 분류규칙과 과적합

분류분석 : 다수의 속성을 갖는 객체를 그룹 또는 범주로 분류한다.

 

학습표본으로부터 효율적인 분류규칙을 생성 (오분류율을 최소화 한다 = cost function 을 최소화)

 

과적합 : 

  • 분류모형에서 훈련데이터에 대한 과적합을 시킬 경우, 실제 데이터를 적용했을 때 더 높은 오분류율 발생
  • train, validation 정확도는 높지만 test 정확도는 낮은 경우

 


 

 

 

데이터마이닝과 분류 - 학습데이터와 검증데이터

classification 에서는 Iris 데이터를 사용하였다.

 

꽃잎의 폭과 길이에 대한 4개 변수로 꽃의 종류를 예측하는 것이 목표이다.

 

독립변수 - input 변수 (4개 변수)

 

종속변수,타겟변수 - output변수 (예측결과,정답)

 


k- fold cross-validation 으로 랜덤하게 데이터를 나눈다.

 

만약 3-fold 이면 2개는 train 1개는 validation data가 될 것

 

학습데이터와 검증데이터를 생성했으면 train을 해야한다.

 

어떤 분석이 어떤 데이터에 맞는 train 방법인지 다음 강의에 이어나간다.

반응형