[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

코딩뚠뚠

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4

로디네로 2021. 3. 17. 19:28

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

강의 링크 : pabi.smartlearn.io/?

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

확률의 기초개념 :

통계란?

- 데이터를 수집, 처리, 분석, 활용하는 지식

확률이란?

- 특정한 사건이 일어날 가능성을 0~1 사이의 값으로 나타내는 것

장기적으로 어떤 사건이 일어날 가능성은 확률적으로 예측이 가능하다

사건 : 표본 공간에서 관심의 대상인 부분집합

표본공간 : 확률실험의 모든 가능한 결과의 집합

P(A) = 사건 A가 일어나는 경우의 수 / 모든 가능한 결과의 수

=> 표본공간과 사건을 밴다이어그램으로 나타내어 특정 사건에 대한 확률을 구할 수 있다.

확률변수와 기대값 :

확률변수 : 확률 실험으로부터 나타난 결과에 실수를 할당한 함수

기대값 : 확률변수의 중심척도로 모든 결과들과 그에 대한 확률을 곱한 것을 모두 합한것

조건부 확률과 베이즈확률 :

조건부 확률 : 어떤 사건B 가 발생한다는 조건 하에서 다른 사건A 가 발생하게 될 확률 = P(A∩B) / P(B)

사건 B가 일어난다는 정보가 사건 A의 발생에 전혀 영향을 주지 않을 때 두 사건을 통계적 독립이라고 할수있다.

베이즈(Bayes') 정리 : 사후 확률을 사전확률과 기능도를 이용하여 계산할 수 있게 해주는 확률변환식

간단하게 핵심만 말해보자면 주어진 가설에 새로운 정보가 주어졌을 때 사후 확률을 계산할 수 있다는 것이다. 이 사후 확률도 데이터가 업데이트 됨에 따라 계속 업데이트 된다.

아래의 사이트에서 정리된 사항을 볼 수 있다.

datascienceschool.net/02%20mathematics/06.06%20%EB%B2%A0%EC%9D%B4%EC%A6%88%20%EC%A0%95%EB%A6%AC.html

6.6 베이즈 정리 — 데이터 사이언스 스쿨

세 개의 문 중에 하나를 선택하여 문 뒤에 있는 선물을 가지는 게임쇼에 참가했다. 한 문 뒤에는 자동차가 있고, 나머지 두 문 뒤에는 염소가 있다. 이때 어떤 사람이 예를 들어 1번 문을 선택했

datascienceschool.net

이는 머신러닝 기법 중 '나이브베이즈 분류' 기법 계산에서 활용된다.

정규분포(연속형)와 포아송분포(이산형) :

확률분포란?

- 확률을 함수와 그래프로 나타낼 수 있다. 각각의 확률변수에 대한 분포 = 확률분포

확률분포에는 이산형(띄엄띄엄) 분포와 연속형(연속적으로) 분포가 있다.

이산형분포 - 이항분포

이산형분포 - 포아송분포

단위 시간 안에 어떤 사건이 몇 번 발생하는가 에 대한 확률분포
현실문제와 밀접한 관련이 있다.

연속형분포 - 정규분포

정규분포는 평균을 중심으로 대칭을 이루는 종 모양의 연속확률분포이다.

<나중에 더 알아볼 것>

연속형분포 - 카이제곱 분포

확률변수 Z가 표준정규분포 N(0,1) 을 따를 때 Z^2은 자유도가 1인 카이제곱분포를 따른다.

연속형분포 - F분포

회기분석 모형의 유의성을 검증할 때 이용한다.

데이터에서 출발하는 확률과 분포 :

1. 데이터의 분포를 아는 경우

- 학생들의 특성을 기준으로 0, 1로 나눴다.

- 타겟값이 0,1 인 이항분포를 따르므로 분류 규칙을 생성할거다 -> 로지스틱 회기분석

but 현실세계에서 데이터 분포는 매우 다양하고 설명할 수 없는 분포도 많이 존재한다.

-> 다양한 분포들을 한 종류의 분포로 근사하여 설명할 수 있다면? = 중심극한정리 (Central Limit Theorem)

2. 중심극한정리 (Central Limit Theorem)

- 이항분포에서 표본의 수가 증가함에 따라 표본들의 전체 합이 점점 정규분포에 근접해진다는 가설 (모집단이 정규분포가 아닌 경우에도)

유용한 이유 : 대부분의 통계적 검정과 추정은 모집단이 정규분포를 따른다는 가정하에서 이루어짐 -> 모집단의 분포를 몰라도 중심극한정리를 이용하면 표본평균의 통계적 검정과 추정이 가능해짐

'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6 (0)	2021.03.25
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5 (0)	2021.03.25
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0)	2021.03.17
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 (0)	2021.03.16
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_1 (0)	2021.03.16

'공부/POSCO AI-Big Data 아카데미 14기' Related Articles