[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

코딩뚠뚠

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6

로디네로 2021. 3. 25. 15:58

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

pabi.smartlearn.io/

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

현업 데이터 특성과 예측 모형

데이터 수집 - random의 의미
예측모형에서 training과 Test set
예측모형의 과적합
over & under sampling 문제

데이터 수집 - random의 의미

양질의 데이터를 확보하는게 중요하다 (대표성을 띄는것, 랜덤한것)

분석용 데이터와 현장 데이터의 차이

-> On line 기기의 측정조건과 분석실에서의 측정조건이 다를 수 있다.

표본 추출 :

좋은 표본 - 모집단의 특성을 가능한 정확하게 반영한 표본
ex) 모집단에서 A가 40개 B가 20개 있었다면 추출한 표본1에 A가4개 B가 2개 있는게 특성을 잘 반영한 표본이다. 비율이 비슷한것
표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것

전수조사 : 연구대상집단의 모든 데이터를 수집

표본조사 : 연구대상집단의 일부 데이터를 추출

무작위추출 :

모집단에서 표본을 뽑을 때 각 개체가 선택될 확률은 동일
무작위로 추출된 표본은 편의가 최대한 배제됨

군집(Cluster)표본추출과 충화(strata)표본추출

군집표본추출 : 각 군집이 동일한 특성을 갖고있다고 하면 그 중 무작위로 cluster를 선택
충화표본추출 : 모집단 내 하위집단의 특성이 다를때 그 하위집단을 기반으로 표본을 선택

복원추출 : 표본을 추출할 때 뽑은 표본의 데이터를 해당 표본을 다시 넣고 추출

비복원추출 : 표본 추출 시 해당 표본을 제외하고 나머지에서 추출

결론

관심 대상인 모든 데이터를 사용하는 것은 불가능하다. 따라서 모집단의 특성을 대표할 수 있는 분석용 데이터를 만드는 것이 중요하다.

예측모형에서 training과 Test set

추천시스템 : ex) 과거의 구매패턴을 분석하여 미래의 구매를 예측한다.

과거 데이터 -> 분석 -> 예측모형 -> 예측

좋은 예측모형? : 새로운 데이터가 들어왔을 때 정확하게 예측하는 모형

주어진 데이터를 Training set 과 Test set으로 나누는데 8:2 7:3 비율이 적절하다

k-fold cross-validation (k=3, 5, 10)

주어진 데이터를 random split 하는 k-fold
Keras의 ImageDataGenerator의 validation_split 과 같은 역할을 하는데 동작원리가 다르다고 알고있다.

- k-fold는 데이터가 100개인데 k가 3이면 3 6 9 12 15.. 이렇게 test 데이터를 뽑는다.

- 그에 반해 validation_split 함수는 100개 중 70~100번째를 test데이터로 설정! 과 같이 split 한다.

예측모형의 과적합

과적합이란 : 주어진 데이터에 과하게 적합항, 새로운 데이터가 들어오면 정확도를 보장할 수 없는 경우

분류모형의 과적합 - 타겟값이 범주인 경우 (binary classification)

오버피팅일 때 0일때 test set의 오분류율이 오히려 높아질 수 있다.

과소적합 ex) : train : 65% test : 60%

적정적합 ex) : train : 90% test : 85%

과잉적합 ex) : train : 100% test : 65%

최대한 정확도를 높이되 과잉적합을 방지해야 한다.

over & under sampling 문제

데이터 기반 예측 모형에서 중요한 것

데이터를 기반으로 모델을 생성하여 새로운 데이터의 예측 가능

데이터 분균형문제 :

집단 간 데이터 비율의 차이가 크면 다수의 집단의 정확도를 기준으로 예측모형이 결정될 수 있다.
범주간 데이터 크기가 비슷해야 할 것이다.

불균형 데이터를 어떻게 다뤄야 할 것인가?

Over-Sampling - 소수범주에서 다수범주의 수만큼 복원추출

장점 : 정보의 손실이 없음
단점 : 소수의 데이터가 단순 복사되어 과적합의 가능성이 있음

Under-Sampling - 다수범주에서 소수범주의 수만큼 랜덤하게 추출

장점 : 데이터 저장용량이 감소, 적은 데이터를 다루게 되어 실행 속도 향상
단점 : 중요한 정보가 누락될 가능성이 있음

=> hybrid sampling을 통해 데이터 불균형 문제 해결 가능

'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 2 (0)	2021.04.04
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1 (0)	2021.04.03
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5 (0)	2021.03.25
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 (0)	2021.03.17
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0)	2021.03.17

'공부/POSCO AI-Big Data 아카데미 14기' Related Articles