본문 바로가기
기타/머신러닝

머신러닝 공부를 위한 데이터 관련 개념 정리

by 멘토_ 2022. 4. 18.
반응형

머신러닝 공부를 위한 핵심 개념 정리

데이터 (Data) 정의

- 현실 세계의 어떤 현상을 관찰하여 기록한 것

 

Ex) 심장 데이터

심장 상태를 청진기 또는 심전도 기구를 이용하여 관찰 및 측정하여 기록한 것

 

데이터의 특징

  • 현상 및 사실 그대로 임 (Facts)
  • 의미가 없음 (No meaning)
  • 현실 세계를 표현한 것 (Representation of real world)

피쳐 (Feature) 정의

- 데이터(data) 를 컴퓨터가 이해할 수 있도록 수치(numeric) 또는 디지털(digitized) 로 표현(representation) 한 것

 

피쳐 (Feature) 와 유의어

  • Independent Variable
  • Explanatory Variable
  • Predictor
  • Input
  • Attribute

목표 (Target)

- 예측하려는 목표

 

모델 (Model)

- 실제의 무엇을 더 작게 추상화된 형태로 표현한 것 (모형 또는 본보기)

Ex) 프라모델, 설계도면

 

머신러닝 모델 (Machine Learning Model)

- 어떠한 문제를 해결하기 위해 수립한 가설을 논리적, 수학적 함수식의 형태로 표현한 것

 

알고리즘 (Algorithm)

- 입력된 자료를 바탕으로 원하는 결과를 유도하기 위해 일련의 논리적인 순서와 절차를 규칙화 한 것

 

머신러닝 알고리즘 (Machine Learning Algorithm)

- 모델이 어떠한 문제를 해결하기 위한 함수식이라면 머신러닝 알고리즘은 그 함수식을 만들어내는 일련의 절차 및 규칙

 

Loss, Cost, Error

- 예측 목표로부터 예측 결과의 오차

 

학습 (Learning)

- 예측 목표로부터 예측 결과의 오차를 최소화하는 함수식을 찾아내는 과정

 

머신러닝을 위한 데이터 준비

데이터 준비 (Data Preparation)

아래 그림에서 Data Preprocessing & Feature Engineering 에 해당

 

데이터 준비 파이프라인 (Data Preparation Pipeline)

머신러닝 프로젝트 성공 함에 있어 중요한 것

대다수의 Data Preprocessing 과 Feature Engineering 기법은 도메인에 많은 영향을 받음 (Domain Specific)

따라서, Data Preprocessing & Feature Engineering 을 수행함에 있어 도메인 전문가가 필요함

 

데이터 전처리 (Data Preprocessing)

- 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data 를 가공하는 작업

 

데이터 전처리 기법 (Techniques of Data Preprocessing)

  • Vectorization
  • Normalization
  • Handling Missing Values

 

피쳐 엔지니어링 (Feature Engineering)

- 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 전처리된 데이터 (Preprocessed Data)를 변환하는 작업

 

피쳐 엔지니어링 기법 (Techniques fo Feature Engineering)

  • Feature Transformation
  • Feature Generation
  • Feature Selection
  • Feature Extraction

피쳐의 타입 (Types of Feature)

  • Numerical (e.g. 나이, 키, 가격 등)
  • Categorical (e.g. 성, 직업 등)

 

 

반응형

'기타 > 머신러닝' 카테고리의 다른 글

머신러닝 실무 정리  (0) 2022.04.19
데이터 과학자란 ?  (0) 2022.04.18
머신러닝과 데이터 과학 쌩 기초  (0) 2022.04.18