일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 임베디드 딥러닝
- TensorFlow Lite
- 컴퓨팅사고
- tinyml
- 자료구조
- MCU 딥러닝
- 알고리즘
- sort
- 코딩테스트
- dfs
- 영상처리
- dfs문제
- 그리디
- 코테
- tflite
- 삼성역테
- 초소형머신러닝
- DP문제
- 딥러닝
- 포스코 AI교육
- 포스코 ai 교육
- bfs문제
- 포스코 교육
- 코테 문제
- 삼성역량테스트
- BFS
- DP
- 다이나믹프로그래밍
- 삼성코딩테스트
- 삼성코테
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6 본문
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.
현업 데이터 특성과 예측 모형
- 데이터 수집 - random의 의미
- 예측모형에서 training과 Test set
- 예측모형의 과적합
- over & under sampling 문제
데이터 수집 - random의 의미
양질의 데이터를 확보하는게 중요하다 (대표성을 띄는것, 랜덤한것)
분석용 데이터와 현장 데이터의 차이
-> On line 기기의 측정조건과 분석실에서의 측정조건이 다를 수 있다.
표본 추출 :
- 좋은 표본 - 모집단의 특성을 가능한 정확하게 반영한 표본
- ex) 모집단에서 A가 40개 B가 20개 있었다면 추출한 표본1에 A가4개 B가 2개 있는게 특성을 잘 반영한 표본이다. 비율이 비슷한것
- 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것
전수조사 : 연구대상집단의 모든 데이터를 수집
표본조사 : 연구대상집단의 일부 데이터를 추출
무작위추출 :
- 모집단에서 표본을 뽑을 때 각 개체가 선택될 확률은 동일
- 무작위로 추출된 표본은 편의가 최대한 배제됨
군집(Cluster)표본추출과 충화(strata)표본추출
- 군집표본추출 : 각 군집이 동일한 특성을 갖고있다고 하면 그 중 무작위로 cluster를 선택
- 충화표본추출 : 모집단 내 하위집단의 특성이 다를때 그 하위집단을 기반으로 표본을 선택
복원추출 : 표본을 추출할 때 뽑은 표본의 데이터를 해당 표본을 다시 넣고 추출
비복원추출 : 표본 추출 시 해당 표본을 제외하고 나머지에서 추출
결론
관심 대상인 모든 데이터를 사용하는 것은 불가능하다. 따라서 모집단의 특성을 대표할 수 있는 분석용 데이터를 만드는 것이 중요하다.
예측모형에서 training과 Test set
추천시스템 : ex) 과거의 구매패턴을 분석하여 미래의 구매를 예측한다.
- 과거 데이터 -> 분석 -> 예측모형 -> 예측
좋은 예측모형? : 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형
- 주어진 데이터를 Training set 과 Test set으로 나누는데 8:2 7:3 비율이 적절하다
k-fold cross-validation (k=3, 5, 10)
- 주어진 데이터를 random split 하는 k-fold
- Keras의 ImageDataGenerator의 validation_split 과 같은 역할을 하는데 동작원리가 다르다고 알고있다.
- k-fold는 데이터가 100개인데 k가 3이면 3 6 9 12 15.. 이렇게 test 데이터를 뽑는다.
- 그에 반해 validation_split 함수는 100개 중 70~100번째를 test데이터로 설정! 과 같이 split 한다.
예측모형의 과적합
과적합이란 : 주어진 데이터에 과하게 적합항, 새로운 데이터가 들어오면 정확도를 보장할 수 없는 경우
분류모형의 과적합 - 타겟값이 범주인 경우 (binary classification)
- 오버피팅일 때 0일때 test set의 오분류율이 오히려 높아질 수 있다.
과소적합 ex) : train : 65% test : 60%
적정적합 ex) : train : 90% test : 85%
과잉적합 ex) : train : 100% test : 65%
최대한 정확도를 높이되 과잉적합을 방지해야 한다.
over & under sampling 문제
데이터 기반 예측 모형에서 중요한 것
- 데이터를 기반으로 모델을 생성하여 새로운 데이터의 예측 가능
데이터 분균형문제 :
- 집단 간 데이터 비율의 차이가 크면 다수의 집단의 정확도를 기준으로 예측모형이 결정될 수 있다.
- 범주간 데이터 크기가 비슷해야 할 것이다.
불균형 데이터를 어떻게 다뤄야 할 것인가?
Over-Sampling - 소수범주에서 다수범주의 수만큼 복원추출
- 장점 : 정보의 손실이 없음
- 단점 : 소수의 데이터가 단순 복사되어 과적합의 가능성이 있음
Under-Sampling - 다수범주에서 소수범주의 수만큼 랜덤하게 추출
- 장점 : 데이터 저장용량이 감소, 적은 데이터를 다루게 되어 실행 속도 향상
- 단점 : 중요한 정보가 누락될 가능성이 있음
=> hybrid sampling을 통해 데이터 불균형 문제 해결 가능
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 2 (0) | 2021.04.04 |
---|---|
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1 (0) | 2021.04.03 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5 (0) | 2021.03.25 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 (0) | 2021.03.17 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0) | 2021.03.17 |