코딩뚠뚠

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4

로디네로 2021. 3. 17. 19:28
반응형

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

강의 링크 : pabi.smartlearn.io/?

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

 


 

확률의 기초개념 : 

 

통계란?

- 데이터를 수집, 처리, 분석, 활용하는 지식

 

확률이란?

- 특정한 사건이 일어날 가능성을 0~1 사이의 값으로 나타내는 것

 

장기적으로 어떤 사건이 일어날 가능성은 확률적으로 예측이 가능하다

 

사건 : 표본 공간에서 관심의 대상인 부분집합

표본공간 : 확률실험의 모든 가능한 결과의 집합

 

P(A) = 사건 A가 일어나는 경우의 수 / 모든 가능한 결과의 수

=> 표본공간과 사건을 밴다이어그램으로 나타내어 특정 사건에 대한 확률을 구할 수 있다.

 


 

확률변수와 기대값 :

 

확률변수 : 확률 실험으로부터 나타난 결과에 실수를 할당한 함수

 

기대값 : 확률변수의 중심척도로 모든 결과들과 그에 대한 확률을 곱한 것을 모두 합한것

 


 

조건부 확률과 베이즈확률 : 

 

조건부 확률 : 어떤 사건B 가 발생한다는 조건 하에서 다른 사건A 가 발생하게 될 확률 = P(A∩B) / P(B)

 

사건 B가 일어난다는 정보가 사건 A의 발생에 전혀 영향을 주지 않을 때 두 사건을 통계적 독립이라고 할수있다.

 

베이즈(Bayes') 정리 : 사후 확률을 사전확률과 기능도를 이용하여 계산할 수 있게 해주는 확률변환식

 

 

간단하게 핵심만 말해보자면 주어진 가설에 새로운 정보가 주어졌을 때 사후 확률을 계산할 수 있다는 것이다. 이 사후 확률도 데이터가 업데이트 됨에 따라 계속 업데이트 된다.

 

 

아래의 사이트에서 정리된 사항을 볼 수 있다.

datascienceschool.net/02%20mathematics/06.06%20%EB%B2%A0%EC%9D%B4%EC%A6%88%20%EC%A0%95%EB%A6%AC.html

 

6.6 베이즈 정리 — 데이터 사이언스 스쿨

세 개의 문 중에 하나를 선택하여 문 뒤에 있는 선물을 가지는 게임쇼에 참가했다. 한 문 뒤에는 자동차가 있고, 나머지 두 문 뒤에는 염소가 있다. 이때 어떤 사람이 예를 들어 1번 문을 선택했

datascienceschool.net

 

이는 머신러닝 기법 중 '나이브베이즈 분류' 기법 계산에서 활용된다.

 


 

정규분포(연속형)와 포아송분포(이산형) : 

 

확률분포란?

- 확률을 함수와 그래프로 나타낼 수 있다. 각각의 확률변수에 대한 분포 = 확률분포

 

확률분포에는 이산형(띄엄띄엄) 분포와 연속형(연속적으로) 분포가 있다.

 

이산형분포 - 이항분포

이산형분포 - 포아송분포

  • 단위 시간 안에 어떤 사건이 몇 번 발생하는가 에 대한 확률분포
  • 현실문제와 밀접한 관련이 있다.

연속형분포 - 정규분포

 

  • 정규분포는 평균을 중심으로 대칭을 이루는 종 모양의 연속확률분포이다.

 

<나중에 더 알아볼 것>

 

연속형분포 - 카이제곱 분포

  • 확률변수 Z가 표준정규분포 N(0,1) 을 따를 때 Z^2은 자유도가 1인 카이제곱분포를 따른다.

 

연속형분포 - F분포

  • 회기분석 모형의 유의성을 검증할 때 이용한다. 

 


 

데이터에서 출발하는 확률과 분포 :

 

1. 데이터의 분포를 아는 경우

- 학생들의 특성을 기준으로 0, 1로 나눴다.

- 타겟값이 0,1 인 이항분포를 따르므로 분류 규칙을 생성할거다 -> 로지스틱 회기분석

 

but 현실세계에서 데이터 분포는 매우 다양하고 설명할 수 없는 분포도 많이 존재한다.

-> 다양한 분포들을 한 종류의 분포로 근사하여 설명할 수 있다면? = 중심극한정리 (Central Limit Theorem)

 

2. 중심극한정리 (Central Limit Theorem)

- 이항분포에서 표본의 수가 증가함에 따라 표본들의 전체 합이 점점 정규분포에 근접해진다는 가설 (모집단이 정규분포가 아닌 경우에도)

 

유용한 이유 : 대부분의 통계적 검정과 추정은 모집단이 정규분포를 따른다는 가정하에서 이루어짐 -> 모집단의 분포를 몰라도 중심극한정리를 이용하면 표본평균의 통계적 검정과 추정이 가능해짐

 

반응형