[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

코딩뚠뚠

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5

로디네로 2021. 3. 25. 03:32

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

pabi.smartlearn.io/

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

지난 포스팅에 이어 이번에는 통계 검정방법에 대한 강의를 수강하였다.

통계 검정방법

신뢰구간의 의미
통계적 검정은 왜 필요한가
두 집단 t-검정
p-value의 실제의미

신뢰구간의 의미

신뢰구간 이라는 용어를 많이 듣게 되는 곳은 여론조사때 미디어!

ex) 지지율이 37%, 40% 일때 오차범위가 3%면

34% ~ 40%

37% ~ 43% 가 될 것으로 누가 당선될지는 정확히 알 수 없다.

신뢰구간 - 구간추정

실제 모수가 존재할 가능성이 높은 구간으로 추정한다. ( 점 추정치가 아니라 모평균이 어디쯤에 있을 것 같다. 라는.. 구간을 측정하는 것 )
신뢰수준 : 구간에 모수가 포함될 확률.
일반적으로 100(1-a)%로 나타낸다.

95%의 신뢰구간이 정확히 의미하는 것은?

100번의 반복 샘플링을 통해 얻은 평균과 편차로 계산한 100개의 신뢰구간 중 5개는 실제 모평균을 포함하고 있지 않는다.
표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 확률은 5%이다.

몇%의 신뢰구간을 선택해야되나

90%의 신뢰구간이면 포함되지 않는 꼬리쪽의 공간이 10% 즉 각각 Z0.5 씩을 사용하게 된다. Z0.5=1.65
95%면 Z0.25=1.96
99%면 Z0.05=2.57

-> 수식적으로 1.65의 공간을 차지하는 90%가 가장 좁다.

좁은 범위로 추정하는게 좋을까? 넓은 범위로 추정하는게 좋을까?

가능하면 좁은 범위로 추정하는 것이 좋다.

대부분 여론조사에서 95%를 사용하는 이유는?

허용오차 5% -> 35%~45% -> 의미가 없다.

허용오차 3% -> 37%~43% -> 3%는 되어야지 의미가 생긴다.

오차범위는 표본사이즈에 따라 달라질 수 있다.

통계적 검정은 왜 필요한가

법적인 근거자료를 만들 수 있다.

가설의 진위여부를 판단, 증명, 검정하는 통계적 추론방식이다.

귀무가설 : 검정 대상이 되는 가설 / 기각을 목표로 한다.
대립가설 : 귀무가설이 기각될 때 받아들여지는 가설 / 채택을 목표로 한다.

가설 검정의 절차

가설 설정 -> 유의수준 설정 -> 검정통계량 산출 -> 가설 기각or 채택

단측 검정과 양측 검정이 있다.

단측 검정 : 함유량이 5mg이 넘어야 되는데 넘느냐 에 따른거 (한방향으로 예측)
양측 검정 : 지지율이 35% +-3% 안에 드느냐 (+-를 둘다 따져야 되는 경우)

T-분포를 이용한 검정

- 한 집단 혹은 두 집단간 평균 차이에 대한 통계적 검정 방법

T-분포

많은 사회현상은 평균 데이터가 많기 때문에 정규분포의 형태
정규분포는 표본의 데이터 수가 많아야 신뢰도가 향상
데이터가 적은 경우에는 예측 범위가 더 넓은 T분포를 사용한다.

T-test의 가정

독립성 : 두 집단의 변수는 서로 독립이다.
정규성 : 두 집단의 데이터는 정규분포를 만족한다.
등분산성 : 두 집단의 분산은 동일하다.

두 집단 t-검정

두 모집단의 평균을 비교하기 위한 T-검정의 계산과정을 알아보았다.

종속변수 y : 결과

매개변수 x : 입력

x에 따라 y의 값은 어떻게 나오는지 볼 수 있다.

데이터로부터 평균과 분산을 뽑아낼 수 있다.

분산을 이용하거나 이용하지 않고서 검정통계량 T 를 계산해낸다.

사용예시 :

함량 20%에 대한 데이터 수 : 20 평균:54.65 분산 :0.349

함량 25%에 대한 데이터 수 : 9 평균 : 55.2 분산:2.232

일 때

T = (54.65-55.2)/(√1.235*√(1/10+1/9)) = -1.077 이 된다.

(1.235라는 수는 합동분산 Sp 이다.)

Flow :

가설->조사->데이터->검정통계량->가설에 대한 결정

검정통계량이 기각역 안에 있으면 귀무가설을 기각 => 대립 가설을 인정

p-value의 실제의미

p-value 를 찾아보자

25개 표본의 과자 한 팩의 평균 무게가 87g (모표준편차=15g), 유의수준 a = 0.05 에서 과자 한 팩이 80g 이상이라고 할 수 있는가 ?

귀무가설 u = 80

대립가설 u > 80

위의 검정통계량 부분의 공식을 이용한 계산을 통해 검정통계량 = 2.33 도출

0.05면.. 95% 일때니깐 이때의 Z값은 1.96

즉 검정통계량 > 1.96 이니깐 귀무가설을 기각하게 된다.

80 g 이상이라는 대립가설 주장을 인정하게 된다.

Z=2.33 이니 테이블에서 Z 2.3인 부분과 0.03 으로 나누어 찾는다. => 0.99를 찾을 수 있다.

p(z>2.33) = 1-p(z<2.33) = 1-0.99

즉 p-value는 0.01이다. (유효확률이 0.01)

p-value는 유의확률이다. = 대립가설에 대한 증거의 정도

- p-value가 작다는 것은 그 검정이 매우 유의하다는 것.

즉 이를 이용하여 p-value<a 면 H0 기각 반대면 채택을 해줄 수 있다.

후기 :

처음 들어보는 통계강의라 제대로 듣고있는건지 얼떨떨하다.

너무나도 생소하다.

'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 1 (0)	2021.04.03
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6 (0)	2021.03.25
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 (0)	2021.03.17
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0)	2021.03.17
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 (0)	2021.03.16

'공부/POSCO AI-Big Data 아카데미 14기' Related Articles