일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- dfs
- tinyml
- 삼성코테
- dfs문제
- 영상처리
- 초소형머신러닝
- 코딩테스트
- 포스코 교육
- 그리디
- 삼성역테
- 자료구조
- BFS
- 삼성역량테스트
- 컴퓨팅사고
- 포스코 AI교육
- 임베디드 딥러닝
- MCU 딥러닝
- 코테 문제
- bfs문제
- DP
- 코테
- 포스코 ai 교육
- 다이나믹프로그래밍
- sort
- 삼성코딩테스트
- TensorFlow Lite
- 딥러닝
- 알고리즘
- DP문제
- tflite
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1 본문
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.
1강 데이터마이닝 기초
- 데이터마이닝과 예측 - 다중회기분석1
- 데이터마이닝과 예측 - 다중회기분석2
- 데이터마이닝과 분류 - 분류규칙과 과적합
- 데이터마이닝과 분류 - 학습데이터와 검증데이터
데이터마이닝과 예측 - 다중회기분석 1
데이터마이닝 기법중 예측 은 주어진 데이터를 기반으로 모델을 만든 후 y값을 예측한다.
적용기법으로는 다중회귀분석, 주성분 회귀분석, 부분최소자승법, 신경망 등이 있다.
예측과 분류는 다른 문제이다.
예측 (prediction)의 예시는
주식의 변동, 일기예보, 연봉 등이 있을 수 있고
분류 (classification)의 예시는
품종분류, 고객분류 등이 있을 것이다.
이에 따라 사용하는 기법의 차이는 위의 표에 제시되어있다.
다중회귀모형 (multiple regression)
종속변수 Y를 결정하기 위해서 k개의 독립변수들이 존재한다.
이들을 통해 각 변수들 간 관계를 확인할 수 있고 각 독립변수들에 의한 prediction을 수행할 수 있을 것이다.
데이터마이닝과 예측 - 다중회기분석 2
다수의 독립변수들이 있을 때 최종 모형은?
1) 전진선택법
: 독립변수 중 종속변수에 가장 큰 영향을 주는 변수
2) 후진선택법
: 독립변수를 모두 포함한 모형에서 가장 영향이 적은 변수부터 제거
3) 단계별방법
: 변수 추가시 기존 변수 중요도가 정해진 threshold 에 포함되지 않으면 제거되어버린
이 존재한다.
다중공선성 (Multicollinearity)
- 독립변수들 사이에 상관관계가 있는 현상
- 다중공선성이 존재하는 경우 회귀계수 해석이 불가능하다.
- 다중공선성의 척도 : 분산팽창계수 (VIF)
데이터마이닝과 분류 - 분류규칙과 과적합
분류분석 : 다수의 속성을 갖는 객체를 그룹 또는 범주로 분류한다.
학습표본으로부터 효율적인 분류규칙을 생성 (오분류율을 최소화 한다 = cost function 을 최소화)
과적합 :
- 분류모형에서 훈련데이터에 대한 과적합을 시킬 경우, 실제 데이터를 적용했을 때 더 높은 오분류율 발생
- train, validation 정확도는 높지만 test 정확도는 낮은 경우
데이터마이닝과 분류 - 학습데이터와 검증데이터
classification 에서는 Iris 데이터를 사용하였다.
꽃잎의 폭과 길이에 대한 4개 변수로 꽃의 종류를 예측하는 것이 목표이다.
독립변수 - input 변수 (4개 변수)
종속변수,타겟변수 - output변수 (예측결과,정답)
k- fold cross-validation 으로 랜덤하게 데이터를 나눈다.
만약 3-fold 이면 2개는 train 1개는 validation data가 될 것
학습데이터와 검증데이터를 생성했으면 train을 해야한다.
어떤 분석이 어떤 데이터에 맞는 train 방법인지 다음 강의에 이어나간다.
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 3 (0) | 2021.04.04 |
---|---|
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 2 (0) | 2021.04.04 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6 (0) | 2021.03.25 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5 (0) | 2021.03.25 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 (0) | 2021.03.17 |