본문 바로가기
공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6

by 로디네로 2021. 3. 25.
반응형

 

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.
 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

 


 

현업 데이터 특성과 예측 모형

  • 데이터 수집 - random의 의미
  • 예측모형에서 training과 Test set
  • 예측모형의 과적합
  • over & under sampling 문제

 

데이터 수집 - random의 의미

 

양질의 데이터를 확보하는게 중요하다 (대표성을 띄는것, 랜덤한것)

 

분석용 데이터와 현장 데이터의 차이

-> On line 기기의 측정조건과 분석실에서의 측정조건이 다를 수 있다.

 

표본 추출 :

  • 좋은 표본 - 모집단의 특성을 가능한 정확하게 반영한 표본 
  • ex) 모집단에서 A가 40개 B가 20개 있었다면 추출한 표본1에 A가4개 B가 2개 있는게 특성을 잘 반영한 표본이다. 비율이 비슷한것
  • 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것

 

전수조사 : 연구대상집단의 모든 데이터를 수집

표본조사 : 연구대상집단의 일부 데이터를 추출

 

무작위추출 : 

  • 모집단에서 표본을 뽑을 때 각 개체가 선택될 확률은 동일
  • 무작위로 추출된 표본은 편의가 최대한 배제됨

 

군집(Cluster)표본추출과 충화(strata)표본추출

  • 군집표본추출 : 각 군집이 동일한 특성을 갖고있다고 하면 그 중 무작위로 cluster를 선택
  • 충화표본추출 : 모집단 내 하위집단의 특성이 다를때 그 하위집단을 기반으로 표본을 선택

 

복원추출 : 표본을 추출할 때 뽑은 표본의 데이터를 해당 표본을 다시 넣고 추출

비복원추출 : 표본 추출 시 해당 표본을 제외하고 나머지에서 추출

 

 

결론

관심 대상인 모든 데이터를 사용하는 것은 불가능하다. 따라서 모집단의 특성을 대표할 수 있는 분석용 데이터를 만드는 것이 중요하다.

 

 


 

예측모형에서 training과 Test set

 

추천시스템 : ex) 과거의 구매패턴을 분석하여 미래의 구매를 예측한다.

  • 과거 데이터 -> 분석 -> 예측모형 -> 예측

 

좋은 예측모형? : 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형

  • 주어진 데이터를 Training set 과 Test set으로 나누는데 8:2 7:3 비율이 적절하다

 

k-fold cross-validation (k=3, 5, 10)

  • 주어진 데이터를 random split 하는 k-fold
  • Keras의 ImageDataGenerator의 validation_split 과 같은 역할을 하는데 동작원리가 다르다고 알고있다.

- k-fold는 데이터가 100개인데 k가 3이면 3 6 9 12 15.. 이렇게 test 데이터를 뽑는다.

- 그에 반해 validation_split 함수는 100개 중 70~100번째를 test데이터로 설정! 과 같이 split 한다.

 

 


 

예측모형의 과적합

 

과적합이란 : 주어진 데이터에 과하게 적합항, 새로운 데이터가 들어오면 정확도를 보장할 수 없는 경우

 

분류모형의 과적합 - 타겟값이 범주인 경우 (binary classification)

  • 오버피팅일 때 0일때 test set의 오분류율이 오히려 높아질 수 있다.

 

과소적합 ex) : train : 65% test : 60%

적정적합 ex) : train : 90% test : 85%

과잉적합 ex) : train : 100% test : 65%

 

최대한 정확도를 높이되 과잉적합을 방지해야 한다.

 

 


 

over & under sampling 문제

 

데이터 기반 예측 모형에서 중요한 것

  • 데이터를 기반으로 모델을 생성하여 새로운 데이터의 예측 가능

 

데이터 분균형문제 : 

  • 집단 간 데이터 비율의 차이가 크면 다수의 집단의 정확도를 기준으로 예측모형이 결정될 수 있다.
  • 범주간 데이터 크기가 비슷해야 할 것이다.

 

불균형 데이터를 어떻게 다뤄야 할 것인가?

Over-Sampling - 소수범주에서 다수범주의 수만큼 복원추출

  • 장점 : 정보의 손실이 없음
  • 단점 : 소수의 데이터가 단순 복사되어 과적합의 가능성이 있음

Under-Sampling - 다수범주에서 소수범주의 수만큼 랜덤하게 추출

  • 장점 : 데이터 저장용량이 감소, 적은 데이터를 다루게 되어 실행 속도 향상
  • 단점 : 중요한 정보가 누락될 가능성이 있음

=> hybrid sampling을 통해 데이터 불균형 문제 해결 가능

 

 

반응형

댓글