본문 바로가기
공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3

by 로디네로 2021. 3. 17.
반응형

 

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

강의 링크 : pabi.smartlearn.io/?

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

 


 

데이터 시각화 (Data Visualization) : 

- 데이터 분석결과를 쉽게 이해할 수 있도록 보여주는 것

 

나타내는 방법 : 

  • 인포그래픽 (Infographic)
  • 히스토그램 (Histogram)
  • 상자그림 (Box plot)
  • 산점도 (Scatter plot)

효과적인 데이터 시각화의 조건 : 

  • 어떤 메시지를 전달할 것인가
  • 핵심 내용만 추리기
  • 최선의 표현방법을 선택하기
  • 단순, 명료하게 표현
  • 어떤 의사결정을 해야되는지 설명

 

그래프의 유용성 : 

 

그래프는 데이터 시각화의 일종

 

히스토그램 :

같은 분산이라도 데이터의 분포를 더 잘 파악 가능

이상치의 존재 파악 가능

 

유의사항 :

Y축의 시작, 끝 값 설정에 따라 차이가 있어보이기도, 없어보이기도 한다. 범위를 잘 지정해 줄 것

 

정리 : 

그래프를 작성할 때에는 축의 범위, 간격 등을 잘 정해야 된다.

그래프를 보는 사람의 수준을 고려해야 한다.

그래프 종류별 장점과 단점을 정확히 파악하고 사용해야된다.

 


 

상자그림(Box plot)의 정보와 해석 : 

 

평균과 분산을 안다고 해서 데이터가 어느쪽에 더 많이 분포하는지는 알 수가 없다

이상치가 존재하는지도 알 수가 없다.

 

  • 분포를 알기 위해서는 히스토그램을 이용하던지, 상자그림 등을 이용해야 될 것이다.

상자그림은 한눈에 다섯가지 정보를 제공한다.

 

  • 상단의 whisker : 최대값
  • 75 th percentile(Q3) : 삼사분위수 (75%값)
  • median : 중앙값
  • 25 th percentile(Q1) : 일사분위수 (25%값)
  • 하단의 whisker : 최소값

때에 따라서는 십자가 그려진 것과 같이 mean을 나타낼 수도 있을 것이다.

 

상자그림을 통해서 데이터가 어떤 쪽으로 치우쳤는지 알 수 있을 것이다.

 


 

산점도(Scatter plot)와 상관관계 : 

산점도 예시

 

히스토그램, 상자그림을 통해서는 변수 1개의 데이터 분포를 살펴봤다.

 

두 개 이상의 변수 사이의 관계는 산점도로 알아볼 수 있다.

 

  • 산점도의 x 축 : 독립변수 (원인의 역할을 하는 변수)
  • 산점도의 y 축 : 종속변수 (결과를 관측하는 변수)

산점도로 무엇을 알 수 있나?

- 트렌드 : linear, curved, clusters ...

- 방향 : positive, negative ...

- 강도 : how closely the oints fit the trend

 

산점도에서 선형모형을 구현할 수 있다. (뒷부분에서 계속)

 

 

 

 

반응형

댓글