코딩뚠뚠

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2

로디네로 2021. 3. 16. 14:04
반응형

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의이다.

 


2주차 강의의 목차는 다음과 같았다

  • 데이터의 평균
  • 데이터의 분산
  • 데이터와 빅데이터
  • 데이터 탐색의 첫걸음

데이터의 평균 : 

평균이란 데이터를 하나의 값으로 표현한 요약된 정보이다. (추정치)

 

모든 데이터를 더한 후 갯수로 나는 값

 

평균은 혼자 존재하는 개념이 아니다.

 

어떻게 표본선정을 하느냐에 따라 평균값에 영향을 미친다.

 


 

평균과 표본선정 :

표본이 적합하게 추출되었는지 평가하는 방법 (평균을 예제로 하면)

 

1. Bias 가 적은가?

- 표본 추출 시 표본으로부터의 통계치의 기대값이 모수의 참값과 유사한가

 

2. Precision이 높은가?

- 반복해서 표본을 추출할 때 얼마나 유사한 값들이 나오는가

 


 

평균과 분산 : 

같은 평균이라도 분산이 다르면 데이터의 특성은 다르다.

 

 

평균을 다룰 때 주의점 : 

평균값은 그 집단에서 가장 많이 존재하는 값의 집단이 아니다.

 

평균은 표본이 적은 경우 아주 큰 값이나 작은 값에 민감한 추정치. 때로는 중앙값이 평균보다 더 작합한 척도일수도 있음

 

중앙값 : 

관측치를 크기순으로 배열했을 때 가장 중앙에 놓이는 값으로 데이터의 수가 작고 이상치가 있을 때 평균보다 더 정확한 값을 나타낼 수도 있다.

 

최빈값 : 

전체 데이터 중 가장 빈도가 높은 값으로 데이터의 수가 많아질수록 평균과 가까워진다.

 

 


 

데이터의 산포 (분산) : 

 

데이터의 산포정도가 크다.

= 데이터가 중간에 몰려있지 않고 멀리 퍼져있다.

= 데이터가 중심위치로부터 멀리 퍼져있다.

= 데이터의 평균과 데이터들의 차이가 크다.

 

데이터의 평균과 데이터들의 거리의 합으로 분산을 계산해낼 수 있다.

1. 편차는 각각 데이터에서 평균를 뺀 것

2. 편차들의 합을 구한다.

3. 분산 = 편차들의 제곱합을 (n-1) 로 나눈것

 

표준편차(SD)란 : 분산에 제곱근을 취하여 원래 단위로 복원한 것

 

정리 : 분산은 데이터가 분포되어있는 정도로 데이터에 대한 요약정보를 보완해준다. (평균만으로 데이터를 상상하기 어려운것을 보완)

 


 

데이터와 빅데이터 :

 

데이터란 조사된 숫자를 뜻하지 않고 구조화된 데이터를 뜻한다. (txt, csv 등의 파일형태로 저장됨)

 

데이터화 (Datafication) - 기계가 읽어들인 모든 것을 데이터(숫자,벡터의 구조)로 변환하는 것

 

빅데이터를 구성하는 것

  • Volume(양) : 많은 양의 데이터
  • Velocity(속도) : 빠르게 생성
  • Variety(다양성) : 다양한 형태의 데이터

 

데이터 탐색의 첫걸음 :

 

통계치로 인사이트를 얻어 채용, 정책, 공정관리 등에 사용할 수 있다.

 

  • 데이터 탐색
  • 통계적 품질관리
  • 분류(Classification) - 범주간 평균차이 / 분산 으로 나타낼 수 있다. 
  • 웹마이닝 이용한 트렌드 분석 - 시기가 가까운 데이터를 더 중요시하여 분석

 

 

반응형