일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 포스코 교육
- BFS
- 삼성코테
- 그리디
- 삼성역량테스트
- dfs문제
- bfs문제
- TensorFlow Lite
- 코테 문제
- 삼성역테
- dfs
- 초소형머신러닝
- 영상처리
- 포스코 AI교육
- tinyml
- 컴퓨팅사고
- MCU 딥러닝
- DP문제
- 딥러닝
- 알고리즘
- 포스코 ai 교육
- tflite
- sort
- 임베디드 딥러닝
- 다이나믹프로그래밍
- DP
- 코테
- 삼성코딩테스트
- 자료구조
- 코딩테스트
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5 본문
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.
지난 포스팅에 이어 이번에는 통계 검정방법에 대한 강의를 수강하였다.
통계 검정방법
- 신뢰구간의 의미
- 통계적 검정은 왜 필요한가
- 두 집단 t-검정
- p-value의 실제의미
신뢰구간의 의미
신뢰구간 이라는 용어를 많이 듣게 되는 곳은 여론조사때 미디어!
ex) 지지율이 37%, 40% 일때 오차범위가 3%면
34% ~ 40%
37% ~ 43% 가 될 것으로 누가 당선될지는 정확히 알 수 없다.
신뢰구간 - 구간추정
- 실제 모수가 존재할 가능성이 높은 구간으로 추정한다. ( 점 추정치가 아니라 모평균이 어디쯤에 있을 것 같다. 라는.. 구간을 측정하는 것 )
- 신뢰수준 : 구간에 모수가 포함될 확률.
- 일반적으로 100(1-a)%로 나타낸다.
95%의 신뢰구간이 정확히 의미하는 것은?
- 100번의 반복 샘플링을 통해 얻은 평균과 편차로 계산한 100개의 신뢰구간 중 5개는 실제 모평균을 포함하고 있지 않는다.
- 표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 확률은 5%이다.
몇%의 신뢰구간을 선택해야되나
- 90%의 신뢰구간이면 포함되지 않는 꼬리쪽의 공간이 10% 즉 각각 Z0.5 씩을 사용하게 된다. Z0.5=1.65
- 95%면 Z0.25=1.96
- 99%면 Z0.05=2.57
-> 수식적으로 1.65의 공간을 차지하는 90%가 가장 좁다.
좁은 범위로 추정하는게 좋을까? 넓은 범위로 추정하는게 좋을까?
- 가능하면 좁은 범위로 추정하는 것이 좋다.
대부분 여론조사에서 95%를 사용하는 이유는?
허용오차 5% -> 35%~45% -> 의미가 없다.
허용오차 3% -> 37%~43% -> 3%는 되어야지 의미가 생긴다.
오차범위는 표본사이즈에 따라 달라질 수 있다.
통계적 검정은 왜 필요한가
법적인 근거자료를 만들 수 있다.
가설의 진위여부를 판단, 증명, 검정하는 통계적 추론방식이다.
- 귀무가설 : 검정 대상이 되는 가설 / 기각을 목표로 한다.
- 대립가설 : 귀무가설이 기각될 때 받아들여지는 가설 / 채택을 목표로 한다.
가설 검정의 절차
- 가설 설정 -> 유의수준 설정 -> 검정통계량 산출 -> 가설 기각or 채택
단측 검정과 양측 검정이 있다.
- 단측 검정 : 함유량이 5mg이 넘어야 되는데 넘느냐 에 따른거 (한방향으로 예측)
- 양측 검정 : 지지율이 35% +-3% 안에 드느냐 (+-를 둘다 따져야 되는 경우)
T-분포를 이용한 검정
- 한 집단 혹은 두 집단간 평균 차이에 대한 통계적 검정 방법
T-분포
- 많은 사회현상은 평균 데이터가 많기 때문에 정규분포의 형태
- 정규분포는 표본의 데이터 수가 많아야 신뢰도가 향상
- 데이터가 적은 경우에는 예측 범위가 더 넓은 T분포를 사용한다.
T-test의 가정
- 독립성 : 두 집단의 변수는 서로 독립이다.
- 정규성 : 두 집단의 데이터는 정규분포를 만족한다.
- 등분산성 : 두 집단의 분산은 동일하다.
두 집단 t-검정
두 모집단의 평균을 비교하기 위한 T-검정의 계산과정을 알아보았다.
종속변수 y : 결과
매개변수 x : 입력
x에 따라 y의 값은 어떻게 나오는지 볼 수 있다.
데이터로부터 평균과 분산을 뽑아낼 수 있다.
분산을 이용하거나 이용하지 않고서 검정통계량 T 를 계산해낸다.
사용예시 :
함량 20%에 대한 데이터 수 : 20 평균:54.65 분산 :0.349
함량 25%에 대한 데이터 수 : 9 평균 : 55.2 분산:2.232
일 때
T = (54.65-55.2)/(√1.235*√(1/10+1/9)) = -1.077 이 된다.
(1.235라는 수는 합동분산 Sp 이다.)
Flow :
가설->조사->데이터->검정통계량->가설에 대한 결정
검정통계량이 기각역 안에 있으면 귀무가설을 기각 => 대립 가설을 인정
p-value의 실제의미
p-value 를 찾아보자
- 25개 표본의 과자 한 팩의 평균 무게가 87g (모표준편차=15g), 유의수준 a = 0.05 에서 과자 한 팩이 80g 이상이라고 할 수 있는가 ?
귀무가설 u = 80
대립가설 u > 80
위의 검정통계량 부분의 공식을 이용한 계산을 통해 검정통계량 = 2.33 도출
0.05면.. 95% 일때니깐 이때의 Z값은 1.96
즉 검정통계량 > 1.96 이니깐 귀무가설을 기각하게 된다.
80 g 이상이라는 대립가설 주장을 인정하게 된다.
Z=2.33 이니 테이블에서 Z 2.3인 부분과 0.03 으로 나누어 찾는다. => 0.99를 찾을 수 있다.
p(z>2.33) = 1-p(z<2.33) = 1-0.99
즉 p-value는 0.01이다. (유효확률이 0.01)
p-value는 유의확률이다. = 대립가설에 대한 증거의 정도
- p-value가 작다는 것은 그 검정이 매우 유의하다는 것.
즉 이를 이용하여 p-value<a 면 H0 기각 반대면 채택을 해줄 수 있다.
후기 :
처음 들어보는 통계강의라 제대로 듣고있는건지 얼떨떨하다.
너무나도 생소하다.
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1 (0) | 2021.04.03 |
---|---|
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6 (0) | 2021.03.25 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 (0) | 2021.03.17 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0) | 2021.03.17 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 (0) | 2021.03.16 |