코딩뚠뚠

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_1 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_1

로디네로 2021. 3. 16. 13:46
반응형

데이터 과학과 통계 과목을 수강한 이유 : 

 

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나로 지금까지 한 번도 접해보지 못했던 데이터 과학에 대한 강의를 수강했다.

 

Python, Tf, torch, numpy, SQL, pandas 등등 AI에 관련한 많은 툴들을 만져보고 적용해봤지만 이들의 DB가 되는 데이터에 대해 자세히 배워본 적 없어서 수강하게 되었다.

 


 

데이터 과학이란 : 

 

통계학 - 데이터마이닝 - 빅데이터 - 딥러닝 - 인공지능 은 연결되어있는 분야이다.

 

데이터 분석 : 예측모형만을 말하는 것이 아니라

 

1. 데이터 큐레이션 - 데이터 추출, 변환 (SQL, R, Python)

2. 데이터 시각화 - ggplot, pyplot, matplotlib

3. 통계모형, 인공지능 - t검정, 회기 분석, 머신러닝

 

으로 나누어 볼 수 있다.

 

이러한 총체적인 과정을 데이터 과학이라고 본다.

 

즉 데이터 분석을 통해 새로운 사실을 발견하고 인사이트를 창출하는 것이 데이터 과학의 목적이라고 볼 수 있다.

 


 

데이터 과학을 위해서는 : 

 

1. 통계적 개념과 지식 - 샘플링, 확률분포, 가설검정, p-value

 

2. 데이터를 다룰 수 있는 기술 (데이터 큐레이션)

 

3. 데이터의 요약된 정보 전달 기술 - 데이터 시각화

 

4. 데이터 윤리, 보안

 

5. 데이터 도메인에 대한 지식과 분석능력 (현실문제를 해결할 수 있는 과학이기 때문)

 


 

앞으로 배울 내용 : 

  • 데이터 과학을 위한 통계적 개념과 지식
  • 공유 데이터와 오픈소스
  • 데이터를 요약 (데이터의 중심위치, 산포정도)
  • 데이터의 시각화
  • 데이터 과학에서 확률분포는 왜 필요한가?

 

통계가 왜 필요한가?

 

= 데이터를 다룰 줄 알면 뭐가 좋은가?

 

- 통계는 올바른 의사 결정을 돕는다.

  • 요약된 정보제공
  • 과거 데이터를 통해 미래를 예측
  • 데이터에 숨겨진 패턴 발견

=> 올바른 의사결정

 

 

ex)

- 은행의 고객 맞춤형 마케팅 

- 정부 정책의 근거자료 (영국의회 노령연금 도입, 서울시 심야버스 노선정책)

- 개표결과 예측

- 법정 소송에서의 근거자료

 


 

데이터 분석과 윤리

1. 데이터의 정직성 : 신뢰할 수 있는 데이터를 신뢰할 수 있는 방법으로 수집

- 데이터의 신뢰성이 없을 경우 데이터 분석은 무의미하다.

 

2. 통계치 해석 : 데이터 시각화의 오남용 X

- 집단간 비교에서 y축의 범위가 동일 ( 즉 일관성 있는 척도를 사용할 것)

 


 

공유데이터와 오픈소스

 

공유데이터 : 모든 사람이 자유롭게 사용 및 재사용이 가능, 재배포 가능

 

굉장히 많은 공유데이터 사이트가 존재한다.

 

공공데이터포털, Kaggle, UCI Machine Learning Repository, 통계청, 서울열린데이터광장, 네이버 데이터랩 등등이 존재한다.

 

오픈소스 : 저작권자가 소스코드를 공개하여 누구나 복제, 배포 할 수 있는 소프트웨어 (물론 라이센스를 따라야한다.)

 

Github : 관련 포스팅 참고

dbstndi6316.tistory.com/200

 

Git 개념 및 사용법 1

개발에 관심이 있는 사람이라면 대학교 저학년 학생이어도 한 번쯤 들어보았을 이름 Git, Github이다. Git 은 형상관리도구 이다. (예전에는 SVN을 많이 썼다고 하는데.. 요즘은 Git이 널리 쓰인다.) 형

dbstndi6316.tistory.com

 

 

반응형