일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 자료구조
- 포스코 ai 교육
- 포스코 AI교육
- 컴퓨팅사고
- 삼성코테
- DP문제
- BFS
- tflite
- 다이나믹프로그래밍
- 임베디드 딥러닝
- 포스코 교육
- 초소형머신러닝
- sort
- bfs문제
- 딥러닝
- 삼성역테
- 코테
- 알고리즘
- dfs문제
- TensorFlow Lite
- 삼성역량테스트
- dfs
- 영상처리
- 삼성코딩테스트
- 코테 문제
- DP
- tinyml
- MCU 딥러닝
- 그리디
- 코딩테스트
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 본문
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의이다.
2주차 강의의 목차는 다음과 같았다
- 데이터의 평균
- 데이터의 분산
- 데이터와 빅데이터
- 데이터 탐색의 첫걸음
데이터의 평균 :
평균이란 데이터를 하나의 값으로 표현한 요약된 정보이다. (추정치)
모든 데이터를 더한 후 갯수로 나는 값
평균은 혼자 존재하는 개념이 아니다.
어떻게 표본선정을 하느냐에 따라 평균값에 영향을 미친다.
평균과 표본선정 :
표본이 적합하게 추출되었는지 평가하는 방법 (평균을 예제로 하면)
1. Bias 가 적은가?
- 표본 추출 시 표본으로부터의 통계치의 기대값이 모수의 참값과 유사한가
2. Precision이 높은가?
- 반복해서 표본을 추출할 때 얼마나 유사한 값들이 나오는가
평균과 분산 :
같은 평균이라도 분산이 다르면 데이터의 특성은 다르다.
평균을 다룰 때 주의점 :
평균값은 그 집단에서 가장 많이 존재하는 값의 집단이 아니다.
평균은 표본이 적은 경우 아주 큰 값이나 작은 값에 민감한 추정치. 때로는 중앙값이 평균보다 더 작합한 척도일수도 있음
중앙값 :
관측치를 크기순으로 배열했을 때 가장 중앙에 놓이는 값으로 데이터의 수가 작고 이상치가 있을 때 평균보다 더 정확한 값을 나타낼 수도 있다.
최빈값 :
전체 데이터 중 가장 빈도가 높은 값으로 데이터의 수가 많아질수록 평균과 가까워진다.
데이터의 산포 (분산) :
데이터의 산포정도가 크다.
= 데이터가 중간에 몰려있지 않고 멀리 퍼져있다.
= 데이터가 중심위치로부터 멀리 퍼져있다.
= 데이터의 평균과 데이터들의 차이가 크다.
데이터의 평균과 데이터들의 거리의 합으로 분산을 계산해낼 수 있다.
1. 편차는 각각 데이터에서 평균를 뺀 것
2. 편차들의 합을 구한다.
3. 분산 = 편차들의 제곱합을 (n-1) 로 나눈것
표준편차(SD)란 : 분산에 제곱근을 취하여 원래 단위로 복원한 것
정리 : 분산은 데이터가 분포되어있는 정도로 데이터에 대한 요약정보를 보완해준다. (평균만으로 데이터를 상상하기 어려운것을 보완)
데이터와 빅데이터 :
데이터란 조사된 숫자를 뜻하지 않고 구조화된 데이터를 뜻한다. (txt, csv 등의 파일형태로 저장됨)
데이터화 (Datafication) - 기계가 읽어들인 모든 것을 데이터(숫자,벡터의 구조)로 변환하는 것
빅데이터를 구성하는 것
- Volume(양) : 많은 양의 데이터
- Velocity(속도) : 빠르게 생성
- Variety(다양성) : 다양한 형태의 데이터
데이터 탐색의 첫걸음 :
통계치로 인사이트를 얻어 채용, 정책, 공정관리 등에 사용할 수 있다.
- 데이터 탐색
- 통계적 품질관리
- 분류(Classification) - 범주간 평균차이 / 분산 으로 나타낼 수 있다.
- 웹마이닝 이용한 트렌드 분석 - 시기가 가까운 데이터를 더 중요시하여 분석
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 (0) | 2021.03.17 |
---|---|
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0) | 2021.03.17 |
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_1 (0) | 2021.03.16 |
[POSCO 교육 사전학습] AI 입문 - 컴퓨팅사고1_8 (0) | 2021.03.13 |
[POSCO 교육 사전학습] AI 입문 - 컴퓨팅사고1_6,7 (0) | 2021.03.13 |