본문 바로가기
공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5

by 로디네로 2021. 3. 25.
반응형

 

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

 


 

지난 포스팅에 이어 이번에는 통계 검정방법에 대한 강의를 수강하였다.

 

통계 검정방법

  • 신뢰구간의 의미
  • 통계적 검정은 왜 필요한가
  • 두 집단 t-검정
  • p-value의 실제의미

 

신뢰구간의 의미

 

신뢰구간 이라는 용어를 많이 듣게 되는 곳은 여론조사때 미디어!

 

ex) 지지율이 37%, 40% 일때 오차범위가 3%면

34% ~ 40%

37% ~ 43% 가 될 것으로 누가 당선될지는 정확히 알 수 없다.

 

 

신뢰구간 - 구간추정

  • 실제 모수가 존재할 가능성이 높은 구간으로 추정한다. ( 점 추정치가 아니라 모평균이 어디쯤에 있을 것 같다. 라는.. 구간을 측정하는 것 )
  • 신뢰수준 : 구간에 모수가 포함될 확률.
  • 일반적으로 100(1-a)%로 나타낸다.

 

95%의 신뢰구간이 정확히 의미하는 것은?

  • 100번의 반복 샘플링을 통해 얻은 평균과 편차로 계산한 100개의 신뢰구간 중 5개는 실제 모평균을 포함하고 있지 않는다.
  • 표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 확률은 5%이다.

 

몇%의 신뢰구간을 선택해야되나

  • 90%의 신뢰구간이면 포함되지 않는 꼬리쪽의 공간이 10% 즉 각각 Z0.5 씩을 사용하게 된다. Z0.5=1.65
  • 95%면 Z0.25=1.96
  • 99%면 Z0.05=2.57

-> 수식적으로 1.65의 공간을 차지하는 90%가 가장 좁다. 

 

좁은 범위로 추정하는게 좋을까? 넓은 범위로 추정하는게 좋을까?

  • 가능하면 좁은 범위로 추정하는 것이 좋다.

 

대부분 여론조사에서 95%를 사용하는 이유는?

허용오차 5% -> 35%~45% -> 의미가 없다.

허용오차 3% -> 37%~43% -> 3%는 되어야지 의미가 생긴다.

 

오차범위는 표본사이즈에 따라 달라질 수 있다.

 


 

통계적 검정은 왜 필요한가

법적인 근거자료를 만들 수 있다.

 

가설의 진위여부를 판단, 증명, 검정하는 통계적 추론방식이다.

  • 귀무가설 : 검정 대상이 되는 가설 / 기각을 목표로 한다.
  • 대립가설 : 귀무가설이 기각될 때 받아들여지는 가설 / 채택을 목표로 한다.

 

가설 검정의 절차

  • 가설 설정 -> 유의수준 설정 -> 검정통계량 산출 -> 가설 기각or 채택

 

단측 검정과 양측 검정이 있다.

  • 단측 검정 : 함유량이 5mg이 넘어야 되는데 넘느냐 에 따른거 (한방향으로 예측)
  • 양측 검정 : 지지율이 35% +-3% 안에 드느냐 (+-를 둘다 따져야 되는 경우)

 

T-분포를 이용한 검정

- 한 집단 혹은 두 집단간 평균 차이에 대한 통계적 검정 방법

 

 

T-분포

  • 많은 사회현상은 평균 데이터가 많기 때문에 정규분포의 형태
  • 정규분포는 표본의 데이터 수가 많아야 신뢰도가 향상
  • 데이터가 적은 경우에는 예측 범위가 더 넓은 T분포를 사용한다.

 

T-test의 가정

  • 독립성 : 두 집단의 변수는 서로 독립이다.
  • 정규성 : 두 집단의 데이터는 정규분포를 만족한다.
  • 등분산성 : 두 집단의 분산은 동일하다.

 

 


 

두 집단 t-검정

두 모집단의 평균을 비교하기 위한 T-검정의 계산과정을 알아보았다.

 

종속변수 y : 결과

매개변수 x : 입력

x에 따라 y의 값은 어떻게 나오는지 볼 수 있다.

 

데이터로부터 평균과 분산을 뽑아낼 수 있다.

 

분산을 이용하거나 이용하지 않고서 검정통계량 T 를 계산해낸다.

사용예시 :

 

함량 20%에 대한 데이터 수 : 20 평균:54.65 분산 :0.349

함량 25%에 대한 데이터 수 : 9 평균 : 55.2 분산:2.232

일 때

 

T = (54.65-55.2)/(√1.235*√(1/10+1/9)) = -1.077 이 된다.

(1.235라는 수는 합동분산 Sp 이다.)

 

Flow : 

가설->조사->데이터->검정통계량->가설에 대한 결정

검정통계량이 기각역 안에 있으면 귀무가설을 기각 => 대립 가설을 인정

 

 


 

p-value의 실제의미

 

p-value 를 찾아보자


  • 25개 표본의 과자 한 팩의 평균 무게가 87g (모표준편차=15g), 유의수준 a = 0.05 에서 과자 한 팩이 80g 이상이라고 할 수 있는가 ? 

귀무가설 u = 80

대립가설 u > 80

 

위의 검정통계량 부분의 공식을 이용한 계산을 통해 검정통계량 = 2.33 도출

0.05면.. 95% 일때니깐 이때의 Z값은 1.96

즉 검정통계량 > 1.96 이니깐 귀무가설을 기각하게 된다.

 

80 g 이상이라는 대립가설 주장을 인정하게 된다.

 

Z=2.33 이니 테이블에서 Z 2.3인 부분과 0.03 으로 나누어 찾는다. => 0.99를 찾을 수 있다.

p(z>2.33) = 1-p(z<2.33) = 1-0.99 

즉 p-value는 0.01이다. (유효확률이 0.01)


p-value는 유의확률이다. = 대립가설에 대한 증거의 정도

- p-value가 작다는 것은 그 검정이 매우 유의하다는 것.

 

즉 이를 이용하여 p-value<a 면 H0 기각 반대면 채택을 해줄 수 있다.

 


 

후기 : 

처음 들어보는 통계강의라 제대로 듣고있는건지 얼떨떨하다.

너무나도 생소하다.

반응형

댓글