일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- tinyml
- 코테 문제
- 임베디드 딥러닝
- 다이나믹프로그래밍
- 자료구조
- 초소형머신러닝
- 삼성역량테스트
- 코딩테스트
- 영상처리
- 포스코 교육
- bfs문제
- MCU 딥러닝
- TensorFlow Lite
- 컴퓨팅사고
- tflite
- 삼성코테
- dfs
- sort
- 그리디
- 삼성역테
- 포스코 AI교육
- 포스코 ai 교육
- dfs문제
- DP문제
- BFS
- 알고리즘
- 딥러닝
- DP
- 삼성코딩테스트
- 코테
- Today
- Total
코딩뚠뚠
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_1 본문
데이터 과학과 통계 과목을 수강한 이유 :
포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나로 지금까지 한 번도 접해보지 못했던 데이터 과학에 대한 강의를 수강했다.
Python, Tf, torch, numpy, SQL, pandas 등등 AI에 관련한 많은 툴들을 만져보고 적용해봤지만 이들의 DB가 되는 데이터에 대해 자세히 배워본 적 없어서 수강하게 되었다.
데이터 과학이란 :
통계학 - 데이터마이닝 - 빅데이터 - 딥러닝 - 인공지능 은 연결되어있는 분야이다.
데이터 분석 : 예측모형만을 말하는 것이 아니라
1. 데이터 큐레이션 - 데이터 추출, 변환 (SQL, R, Python)
2. 데이터 시각화 - ggplot, pyplot, matplotlib
3. 통계모형, 인공지능 - t검정, 회기 분석, 머신러닝
으로 나누어 볼 수 있다.
이러한 총체적인 과정을 데이터 과학이라고 본다.
즉 데이터 분석을 통해 새로운 사실을 발견하고 인사이트를 창출하는 것이 데이터 과학의 목적이라고 볼 수 있다.
데이터 과학을 위해서는 :
1. 통계적 개념과 지식 - 샘플링, 확률분포, 가설검정, p-value
2. 데이터를 다룰 수 있는 기술 (데이터 큐레이션)
3. 데이터의 요약된 정보 전달 기술 - 데이터 시각화
4. 데이터 윤리, 보안
5. 데이터 도메인에 대한 지식과 분석능력 (현실문제를 해결할 수 있는 과학이기 때문)
앞으로 배울 내용 :
- 데이터 과학을 위한 통계적 개념과 지식
- 공유 데이터와 오픈소스
- 데이터를 요약 (데이터의 중심위치, 산포정도)
- 데이터의 시각화
- 데이터 과학에서 확률분포는 왜 필요한가?
통계가 왜 필요한가?
= 데이터를 다룰 줄 알면 뭐가 좋은가?
- 통계는 올바른 의사 결정을 돕는다.
- 요약된 정보제공
- 과거 데이터를 통해 미래를 예측
- 데이터에 숨겨진 패턴 발견
=> 올바른 의사결정
ex)
- 은행의 고객 맞춤형 마케팅
- 정부 정책의 근거자료 (영국의회 노령연금 도입, 서울시 심야버스 노선정책)
- 개표결과 예측
- 법정 소송에서의 근거자료
데이터 분석과 윤리
1. 데이터의 정직성 : 신뢰할 수 있는 데이터를 신뢰할 수 있는 방법으로 수집
- 데이터의 신뢰성이 없을 경우 데이터 분석은 무의미하다.
2. 통계치 해석 : 데이터 시각화의 오남용 X
- 집단간 비교에서 y축의 범위가 동일 ( 즉 일관성 있는 척도를 사용할 것)
공유데이터와 오픈소스
공유데이터 : 모든 사람이 자유롭게 사용 및 재사용이 가능, 재배포 가능
굉장히 많은 공유데이터 사이트가 존재한다.
공공데이터포털, Kaggle, UCI Machine Learning Repository, 통계청, 서울열린데이터광장, 네이버 데이터랩 등등이 존재한다.
오픈소스 : 저작권자가 소스코드를 공개하여 누구나 복제, 배포 할 수 있는 소프트웨어 (물론 라이센스를 따라야한다.)
Github : 관련 포스팅 참고
'공부 > POSCO AI-Big Data 아카데미 14기' 카테고리의 다른 글
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_3 (0) | 2021.03.17 |
---|---|
[POSCO 교육 사전학습] AI 입문 - 데이터사이언스를 위한 통계_2 (0) | 2021.03.16 |
[POSCO 교육 사전학습] AI 입문 - 컴퓨팅사고1_8 (0) | 2021.03.13 |
[POSCO 교육 사전학습] AI 입문 - 컴퓨팅사고1_6,7 (0) | 2021.03.13 |
[POSCO 교육 사전학습] AI 입문 - 컴퓨팅사고1_5 (0) | 2021.03.12 |