[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

코딩뚠뚠

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2

로디네로 2021. 3. 16. 14:04

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의이다.

2주차 강의의 목차는 다음과 같았다

데이터의 평균
데이터의 분산
데이터와 빅데이터
데이터 탐색의 첫걸음

데이터의 평균 :

평균이란 데이터를 하나의 값으로 표현한 요약된 정보이다. (추정치)

모든 데이터를 더한 후 갯수로 나는 값

평균은 혼자 존재하는 개념이 아니다.

어떻게 표본선정을 하느냐에 따라 평균값에 영향을 미친다.

평균과 표본선정 :

표본이 적합하게 추출되었는지 평가하는 방법 (평균을 예제로 하면)

1. Bias 가 적은가?

- 표본 추출 시 표본으로부터의 통계치의 기대값이 모수의 참값과 유사한가

2. Precision이 높은가?

- 반복해서 표본을 추출할 때 얼마나 유사한 값들이 나오는가

평균과 분산 :

같은 평균이라도 분산이 다르면 데이터의 특성은 다르다.

평균을 다룰 때 주의점 :

평균값은 그 집단에서 가장 많이 존재하는 값의 집단이 아니다.

평균은 표본이 적은 경우 아주 큰 값이나 작은 값에 민감한 추정치. 때로는 중앙값이 평균보다 더 작합한 척도일수도 있음

중앙값 :

관측치를 크기순으로 배열했을 때 가장 중앙에 놓이는 값으로 데이터의 수가 작고 이상치가 있을 때 평균보다 더 정확한 값을 나타낼 수도 있다.

최빈값 :

전체 데이터 중 가장 빈도가 높은 값으로 데이터의 수가 많아질수록 평균과 가까워진다.

데이터의 산포 (분산) :

데이터의 산포정도가 크다.

= 데이터가 중간에 몰려있지 않고 멀리 퍼져있다.

= 데이터가 중심위치로부터 멀리 퍼져있다.

= 데이터의 평균과 데이터들의 차이가 크다.

데이터의 평균과 데이터들의 거리의 합으로 분산을 계산해낼 수 있다.

1. 편차는 각각 데이터에서 평균를 뺀 것

2. 편차들의 합을 구한다.

3. 분산 = 편차들의 제곱합을 (n-1) 로 나눈것

표준편차(SD)란 : 분산에 제곱근을 취하여 원래 단위로 복원한 것

정리 : 분산은 데이터가 분포되어있는 정도로 데이터에 대한 요약정보를 보완해준다. (평균만으로 데이터를 상상하기 어려운것을 보완)

데이터와 빅데이터 :

데이터란 조사된 숫자를 뜻하지 않고 구조화된 데이터를 뜻한다. (txt, csv 등의 파일형태로 저장됨)

데이터화 (Datafication) - 기계가 읽어들인 모든 것을 데이터(숫자,벡터의 구조)로 변환하는 것

빅데이터를 구성하는 것

Volume(양) : 많은 양의 데이터
Velocity(속도) : 빠르게 생성
Variety(다양성) : 다양한 형태의 데이터

데이터 탐색의 첫걸음 :

통계치로 인사이트를 얻어 채용, 정책, 공정관리 등에 사용할 수 있다.

데이터 탐색
통계적 품질관리
분류(Classification) - 범주간 평균차이 / 분산 으로 나타낼 수 있다.
웹마이닝 이용한 트렌드 분석 - 시기가 가까운 데이터를 더 중요시하여 분석

'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_4 (0)	2021.03.17
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0)	2021.03.17
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_1 (0)	2021.03.16
[POSCO 교육 사전학습] AI 입문 - 컴퓨팅사고1_8 (0)	2021.03.13
[POSCO 교육 사전학습] AI 입문 - 컴퓨팅사고1_6,7 (0)	2021.03.13

'공부/POSCO AI-Big Data 아카데미 14기' Related Articles