머신러닝 공부를 위한 핵심 개념 정리
데이터 (Data) 정의
- 현실 세계의 어떤 현상을 관찰하여 기록한 것
Ex) 심장 데이터
심장 상태를 청진기 또는 심전도 기구를 이용하여 관찰 및 측정하여 기록한 것
데이터의 특징
- 현상 및 사실 그대로 임 (Facts)
- 의미가 없음 (No meaning)
- 현실 세계를 표현한 것 (Representation of real world)
피쳐 (Feature) 정의
- 데이터(data) 를 컴퓨터가 이해할 수 있도록 수치(numeric) 또는 디지털(digitized) 로 표현(representation) 한 것
피쳐 (Feature) 와 유의어
- Independent Variable
- Explanatory Variable
- Predictor
- Input
- Attribute
목표 (Target)
- 예측하려는 목표
모델 (Model)
- 실제의 무엇을 더 작게 추상화된 형태로 표현한 것 (모형 또는 본보기)
Ex) 프라모델, 설계도면
머신러닝 모델 (Machine Learning Model)
- 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것
알고리즘 (Algorithm)
- 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화 한 것
머신러닝 알고리즘 (Machine Learning Algorithm)
- 모델이 어떠한 문제를 해결하기 위한 함수식이라면 머신러닝 알고리즘은 그 함수식을 만들어내는 일련의 절차 및 규칙
Loss, Cost, Error
- 예측 목표로부터 예측 결과의 오차
학습 (Learning)
- 예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정
머신러닝을 위한 데이터 준비
데이터 준비 (Data Preparation)
아래 그림에서 Data Preprocessing & Feature Engineering 에 해당
데이터 준비 파이프라인 (Data Preparation Pipeline)
머신러닝 프로젝트 성공 함에 있어 중요한 것
대다수의 Data Preprocessing 과 Feature Engineering 기법은 도메인에 많은 영향을 받음 (Domain Specific)
따라서, Data Preprocessing & Feature Engineering 을 수행함에 있어 도메인 전문가가 필요함
데이터 전처리 (Data Preprocessing)
- 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data 를 가공하는 작업
데이터 전처리 기법 (Techniques of Data Preprocessing)
- Vectorization
- Normalization
- Handling Missing Values
피쳐 엔지니어링 (Feature Engineering)
- 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 전처리된 데이터 (Preprocessed Data)를 변환하는 작업
피쳐 엔지니어링 기법 (Techniques fo Feature Engineering)
- Feature Transformation
- Feature Generation
- Feature Selection
- Feature Extraction
피쳐의 타입 (Types of Feature)
- Numerical (e.g. 나이, 키, 가격 등)
- Categorical (e.g. 성, 직업 등)
'기타 > 머신러닝' 카테고리의 다른 글
머신러닝 실무 정리 (0) | 2022.04.19 |
---|---|
데이터 과학자란 ? (0) | 2022.04.18 |
머신러닝과 데이터 과학 쌩 기초 (0) | 2022.04.18 |