본문 바로가기
기타/머신러닝

머신러닝 실무 정리

by 멘토_ 2022. 4. 19.
반응형

머신러닝 목표

데이터 과학의 목표

  • 의사결정 (Decision Making)
  • 경제적 이익 창출 (Monetization)

머신러닝의 목표

  • 예측 & 패턴 분석 (Prediction & Pattern Analysis)

머신러닝 업무 프로세스

위의 목표를 달성하기 위한 머신러닝 업무 프로세스는 다음과 같음

1. 문제파악 및 문제정의

머신러닝 프로젝트를 시작할 때 해결해야 하는 비즈니스 문제를 명확하게 먼저 정의

 

문제파악 및 문제정의를 위한 세부 프로세스는 다음과 같음

먼저, 비즈니스 문제를 파악한 후에 이를 해결하기 위한 데이터 과학과 머신러닝 문제로 전환

 

머신러닝의 타입

  • Supervised Learning (지도학습)
    • 입력 및 출력 데이터 기반 예측 모델 생성
      • Classification (분류) - 범주를 예측 
      • Regression (회귀) - 숫자를 예측
  • Unsupervised Learning (비지도학습)
    • 입력 데이터 기반 데이터 그룹화 및 해석
      • Clustering (군집화) - 유사한 그룹끼리 군집화

비즈니스 문제 (현실의 문제)를 머신러닝 문제로 전환

비즈니스 문제 목표 (출력) 머신러닝 문제
고객이 서비스를 이탈할 것인가 범주 : 이탈여부 Classification (분류)
내년 서비스 예상 매출액은 얼마인가 숫자 : 매출액 Regression (회귀)
사용자 정보와 구매이력 기반 고객 그룹화   Clustering (군집화)

위의 문제 이외의 기타 머신러닝 문제는 다음이 존재함

  • Recommender System
  • Anomaly Detection
  • Network Analysis
  • Dimensionality Reduction
  • Profiling
  • Time series Forecasting

효과검증 설계 예시

아래는 머신러닝 도입에 따른 효과 검증 프레임워크임

각 단계별 예시는 다음과 같음

문제정의 : 사용자의 서비스 재방문율(Retention)을 높이고 싶음

가설설정 : 서비스를 이탈할 것 같은 사용자에게 프로모션을 제공하여 재방문하게 함

해결방안 : 서비스 이탈 예측 모델을 개발

효과검증 : 사용자의 재방문율(Retention)이 증가했는지 확인

 

3. 모델 구축 & 분석/평가

머신러닝 문제로 전환하고 데이터 준비를 마친 이후에는 적절한 머신러닝 모델 & 알고리즘을 선택하여 모델을 구축하고 평가함, 해당 프로세스는 아래와 같음

모델 구축 & 평가를 위한 프로세스

머신러닝 모델 & 알고리즘 선택

ML Model Algorithm Result
Classification (분류) Logistic Regression
Decision Tree
Support Vector Machine
범주 예측
Regression (회귀) Linear Regression 
Ridge Regression
Lasso Regression
숫자 예측
Clustering (군집화) K-means
DBscan
군집

 

모델 평가

Regression (회귀) 는 실제 값(y) 과 예측한 값(y') 의 차이/오차 (Loss/Cost/Error) 를 통해 모델의 성능 평가

 

Acronym Full Name Description
MAE Mean Absolute Error TBD
MSE Mean Square Error TBD
RMSE Root Mean Square Error TBD
MAPE Mean Percentage Error TBD

 

Classification 은 실제 범주(class)와 예측한 범주(class)의 정확도 (Accuracy)를 통해 모델의 성능 평가

Name Description Etc.
Accuracy 옳게 분류한 정확도 (correct prediciton / total data points) * 100%
Confusion Matrix 분류 결과를 2x2 의 표로 정리한 혼동행렬  
F-measure precision과 recall의 조화평균
*precision : 예측한 범주에서 실제 True 범주 비율
*recall : 실제 범주에서 옳게 True 라고 예측한 범주 비율
F = (precision X recall) /
     (precision + recall)
AUC TPR과 FPR을 각각 x축과 y축으로 했을 때의 생성되는
ROC curve 아래의 면적
*TPR : True Positive Rate (옳게 예측한 비율)
*FPR : False Positive Rate (True 라고 잘못 예측한 비율)
 

 

경우에 따라서는 모델 도입을 통해 기대되는 손익이 더 중요할 수 있음

Expected Value = P(x1)xV1 + P(x2)xV2 + ...

 

기대손익(Expected Value)은 어떤 이벤트가 발생할 확률 P(x)과 그로 인해 발생하는 손익V을 계산하여 평가

 

혼동행렬과 비용편익 분석을 통한 모델평가

Ex) 프로모션 제공에 대한 기대손익 예시

Expectec Value = (0.43 x 9,770) + (0.19 x 10,000) + (0.06 x (-230)) + (0.32 x 0) = 6,087

 

머신러닝 관점에서 정확도가 높고 비즈니스 관점에서 기대손익이 좋은 모델을 최종 선택

반응형