일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 삼성역테
- 코테 문제
- 그리디
- 코딩테스트
- MCU 딥러닝
- 초소형머신러닝
- 영상처리
- 딥러닝
- DP문제
- 코테
- dfs
- 컴퓨팅사고
- tinyml
- 자료구조
- BFS
- bfs문제
- 삼성코테
- 삼성코딩테스트
- 포스코 교육
- dfs문제
- 다이나믹프로그래밍
- 삼성역량테스트
- 포스코 ai 교육
- 임베디드 딥러닝
- sort
- DP
- TensorFlow Lite
- 알고리즘
- 포스코 AI교육
- tflite
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 본문
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.
확률의 기초개념 :
통계란?
- 데이터를 수집, 처리, 분석, 활용하는 지식
확률이란?
- 특정한 사건이 일어날 가능성을 0~1 사이의 값으로 나타내는 것
장기적으로 어떤 사건이 일어날 가능성은 확률적으로 예측이 가능하다
사건 : 표본 공간에서 관심의 대상인 부분집합
표본공간 : 확률실험의 모든 가능한 결과의 집합
P(A) = 사건 A가 일어나는 경우의 수 / 모든 가능한 결과의 수
=> 표본공간과 사건을 밴다이어그램으로 나타내어 특정 사건에 대한 확률을 구할 수 있다.
확률변수와 기대값 :
확률변수 : 확률 실험으로부터 나타난 결과에 실수를 할당한 함수
기대값 : 확률변수의 중심척도로 모든 결과들과 그에 대한 확률을 곱한 것을 모두 합한것
조건부 확률과 베이즈확률 :
조건부 확률 : 어떤 사건B 가 발생한다는 조건 하에서 다른 사건A 가 발생하게 될 확률 = P(A∩B) / P(B)
사건 B가 일어난다는 정보가 사건 A의 발생에 전혀 영향을 주지 않을 때 두 사건을 통계적 독립이라고 할수있다.
베이즈(Bayes') 정리 : 사후 확률을 사전확률과 기능도를 이용하여 계산할 수 있게 해주는 확률변환식
간단하게 핵심만 말해보자면 주어진 가설에 새로운 정보가 주어졌을 때 사후 확률을 계산할 수 있다는 것이다. 이 사후 확률도 데이터가 업데이트 됨에 따라 계속 업데이트 된다.
아래의 사이트에서 정리된 사항을 볼 수 있다.
datascienceschool.net/02%20mathematics/06.06%20%EB%B2%A0%EC%9D%B4%EC%A6%88%20%EC%A0%95%EB%A6%AC.html
이는 머신러닝 기법 중 '나이브베이즈 분류' 기법 계산에서 활용된다.
정규분포(연속형)와 포아송분포(이산형) :
확률분포란?
- 확률을 함수와 그래프로 나타낼 수 있다. 각각의 확률변수에 대한 분포 = 확률분포
확률분포에는 이산형(띄엄띄엄) 분포와 연속형(연속적으로) 분포가 있다.
이산형분포 - 이항분포
이산형분포 - 포아송분포
- 단위 시간 안에 어떤 사건이 몇 번 발생하는가 에 대한 확률분포
- 현실문제와 밀접한 관련이 있다.
연속형분포 - 정규분포
- 정규분포는 평균을 중심으로 대칭을 이루는 종 모양의 연속확률분포이다.
<나중에 더 알아볼 것>
연속형분포 - 카이제곱 분포
- 확률변수 Z가 표준정규분포 N(0,1) 을 따를 때 Z^2은 자유도가 1인 카이제곱분포를 따른다.
연속형분포 - F분포
- 회기분석 모형의 유의성을 검증할 때 이용한다.
데이터에서 출발하는 확률과 분포 :
1. 데이터의 분포를 아는 경우
- 학생들의 특성을 기준으로 0, 1로 나눴다.
- 타겟값이 0,1 인 이항분포를 따르므로 분류 규칙을 생성할거다 -> 로지스틱 회기분석
but 현실세계에서 데이터 분포는 매우 다양하고 설명할 수 없는 분포도 많이 존재한다.
-> 다양한 분포들을 한 종류의 분포로 근사하여 설명할 수 있다면? = 중심극한정리 (Central Limit Theorem)
2. 중심극한정리 (Central Limit Theorem)
- 이항분포에서 표본의 수가 증가함에 따라 표본들의 전체 합이 점점 정규분포에 근접해진다는 가설 (모집단이 정규분포가 아닌 경우에도)
유용한 이유 : 대부분의 통계적 검정과 추정은 모집단이 정규분포를 따른다는 가정하에서 이루어짐 -> 모집단의 분포를 몰라도 중심극한정리를 이용하면 표본평균의 통계적 검정과 추정이 가능해짐
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_6 (0) | 2021.03.25 |
---|---|
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_5 (0) | 2021.03.25 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0) | 2021.03.17 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 (0) | 2021.03.16 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_1 (0) | 2021.03.16 |