코딩뚠뚠

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 6 본문

공부/POSCO AI-Big Data 아카데미 14기

[POSCO 교육 사전학습] 머신러닝기법과 R프로그래밍 6

로디네로 2021. 4. 4. 14:26
반응형

포스코 포스텍에서 제공하는 청년 AI-BigData 아카데미 과정의 온라인 예습 과정 중 하나인 데이터 과학에 대한 강의를 듣고 정리한 포스팅이다.

 

pabi.smartlearn.io/

 

청년 AI·Big Data 아카데미 온라인 기초과정 (MOOC)

취업 준비생 누구나 POSTECH과 POSCO가 제공하는 무료 온라인 교육 과정에 참여할 수 있습니다.

pabi.smartlearn.io

 


 

이번강의에서는 연관규칙과 로지스틱회기분석에 대해 배웠다.

 

차례 : 

연관규칙과 로지스틱 회귀분석

  • 연관규칙분석 1
  • 연관규칙분석 2
  • 로지스틱 회귀분석

 


 

 

연관규칙분석1

(Association Rule Analysis)

 

연관규칙의 개념과 데이터 변환을 어떻게 분석할 수 있는지 배웠다.

 

연관규칙 : 

대용량 데이터베이스의 트랜잭션에서 패턴을 발견하는것

 

ex)

신발을 구매하는 고객의 10%는 양말을 동시에 구입한다.

 

 

연관규칙을 구성하는것

 

market basket : 고객이 구매한 물품에 대한 정보

transaction : 고객이 거래한 정보를 하나의 트랜잭선으로

market basket analysis : 시장바구니 데이터로부터 연관규칙을 탐색 분석

 

 

연관규칙 평가 척도

 

Support(지지도) = A와 B를 동시에 포함하는 거래수 / 전체 거래수

Confidence(신뢰도) = A와 B를 동시에 포함하는 거래수 /  A를 포함하는 거래수

Lift(향상도) = A와 B를 동시에 포함하는 거래수 / A를 포함하는 거래수 X B를 포함하는 거래수

 

Support 가 어느정도 수준에 도달해야만 한다

Confidence가 높을 경우엔 A->B에서 항목 B의 확률이 커야 연관규칙이 의미가 있다

Lift가 1보다 큰 값을 줘야 유용한 정보를 준다고 할 수 있다.

 

 

Lift(향상도)

자세히 살펴보자

-> A가 거래된 경우, 그 거래가 B를 포함하는 경우와 B가 임의로 거래되는 경우의 비율

향상도 의미
1 두 항목의 거래 발생이 독립적인 관계
<1 두 항목의 거래 발생이 서로 음의 상관 관계
>1 두  항목의 거래 발생이 서로 양의 상관 관계

- 각 항목의 구매가 상호 관련이 없다면 P(B|A)와 P(B)가 같게 되어 Lift는 1이 된다.

- 1보다 크면 결과 예측에 대하여 우연적 기회보다 우수함을 의미한다.

- 향상도의 값이 클수록 A의 거래여부가 B의 거래여부에 큰 영향을 미친다.

 

 


 

연관규칙 분석 2

 

Groceries data 로 연관규칙을 분석하는 과정을 배울 수 있었다.

 

 


 

로지스틱 회귀분석

타겟변수가 0,1 로 되어있다. (연속적이지 않다)

 

일정 값(임계치) 이상을 넘으면 1로 그 이하면 0으로 분류한다.

 

평가척도 : -2Log, AIC(작을수록좋다), G^2

 

예제를 풀어보며 선형 함수로 로지스틱 회귀분석을 수행하고 예측값을 내어 추정하는 과정을 배웠다.

 

 

 

 

반응형