머신러닝 목표
데이터 과학의 목표
- 의사결정 (Decision Making)
- 경제적 이익 창출 (Monetization)
머신러닝의 목표
- 예측 & 패턴 분석 (Prediction & Pattern Analysis)
머신러닝 업무 프로세스
위의 목표를 달성하기 위한 머신러닝 업무 프로세스는 다음과 같음
1. 문제파악 및 문제정의
머신러닝 프로젝트를 시작할 때 해결해야 하는 비즈니스 문제를 명확하게 먼저 정의
문제파악 및 문제정의를 위한 세부 프로세스는 다음과 같음
먼저, 비즈니스 문제를 파악한 후에 이를 해결하기 위한 데이터 과학과 머신러닝 문제로 전환
머신러닝의 타입
- Supervised Learning (지도학습)
- 입력 및 출력 데이터 기반 예측 모델 생성
- Classification (분류) - 범주를 예측
- Regression (회귀) - 숫자를 예측
- 입력 및 출력 데이터 기반 예측 모델 생성
- Unsupervised Learning (비지도학습)
- 입력 데이터 기반 데이터 그룹화 및 해석
- Clustering (군집화) - 유사한 그룹끼리 군집화
- 입력 데이터 기반 데이터 그룹화 및 해석
비즈니스 문제 (현실의 문제)를 머신러닝 문제로 전환
비즈니스 문제 | 목표 (출력) | 머신러닝 문제 |
고객이 서비스를 이탈할 것인가 | 범주 : 이탈여부 | Classification (분류) |
내년 서비스 예상 매출액은 얼마인가 | 숫자 : 매출액 | Regression (회귀) |
사용자 정보와 구매이력 기반 고객 그룹화 | Clustering (군집화) |
위의 문제 이외의 기타 머신러닝 문제는 다음이 존재함
- Recommender System
- Anomaly Detection
- Network Analysis
- Dimensionality Reduction
- Profiling
- Time series Forecasting
효과검증 설계 예시
아래는 머신러닝 도입에 따른 효과 검증 프레임워크임
각 단계별 예시는 다음과 같음
문제정의 : 사용자의 서비스 재방문율(Retention)을 높이고 싶음
가설설정 : 서비스를 이탈할 것 같은 사용자에게 프로모션을 제공하여 재방문하게 함
해결방안 : 서비스 이탈 예측 모델을 개발
효과검증 : 사용자의 재방문율(Retention)이 증가했는지 확인
3. 모델 구축 & 분석/평가
머신러닝 문제로 전환하고 데이터 준비를 마친 이후에는 적절한 머신러닝 모델 & 알고리즘을 선택하여 모델을 구축하고 평가함, 해당 프로세스는 아래와 같음
모델 구축 & 평가를 위한 프로세스
머신러닝 모델 & 알고리즘 선택
ML Model | Algorithm | Result |
Classification (분류) | Logistic Regression Decision Tree Support Vector Machine |
범주 예측 |
Regression (회귀) | Linear Regression Ridge Regression Lasso Regression |
숫자 예측 |
Clustering (군집화) | K-means DBscan |
군집 |
모델 평가
Regression (회귀) 는 실제 값(y) 과 예측한 값(y') 의 차이/오차 (Loss/Cost/Error) 를 통해 모델의 성능 평가
Acronym | Full Name | Description |
MAE | Mean Absolute Error | TBD |
MSE | Mean Square Error | TBD |
RMSE | Root Mean Square Error | TBD |
MAPE | Mean Percentage Error | TBD |
Classification 은 실제 범주(class)와 예측한 범주(class)의 정확도 (Accuracy)를 통해 모델의 성능 평가
Name | Description | Etc. |
Accuracy | 옳게 분류한 정확도 | (correct prediciton / total data points) * 100% |
Confusion Matrix | 분류 결과를 2x2 의 표로 정리한 혼동행렬 | |
F-measure | precision과 recall의 조화평균 *precision : 예측한 범주에서 실제 True 범주 비율 *recall : 실제 범주에서 옳게 True 라고 예측한 범주 비율 |
F = (precision X recall) / (precision + recall) |
AUC | TPR과 FPR을 각각 x축과 y축으로 했을 때의 생성되는 ROC curve 아래의 면적 *TPR : True Positive Rate (옳게 예측한 비율) *FPR : False Positive Rate (True 라고 잘못 예측한 비율) |
경우에 따라서는 모델 도입을 통해 기대되는 손익이 더 중요할 수 있음
Expected Value = P(x1)xV1 + P(x2)xV2 + ...
기대손익(Expected Value)은 어떤 이벤트가 발생할 확률 P(x)과 그로 인해 발생하는 손익V을 계산하여 평가
혼동행렬과 비용편익 분석을 통한 모델평가
Ex) 프로모션 제공에 대한 기대손익 예시
Expectec Value = (0.43 x 9,770) + (0.19 x 10,000) + (0.06 x (-230)) + (0.32 x 0) = 6,087
머신러닝 관점에서 정확도가 높고 비즈니스 관점에서 기대손익이 좋은 모델을 최종 선택
'기타 > 머신러닝' 카테고리의 다른 글
머신러닝 공부를 위한 데이터 관련 개념 정리 (0) | 2022.04.18 |
---|---|
데이터 과학자란 ? (0) | 2022.04.18 |
머신러닝과 데이터 과학 쌩 기초 (0) | 2022.04.18 |