본문 바로가기
기타/머신러닝

데이터 과학자란 ?

by 멘토_ 2022. 4. 18.
반응형

데이터 과학자는 누구인가 ?

데이터 과학은 컴퓨터를 확용해서 데이터를 분석하고 현실의 문제들을 해결 하는 것

 

데이터 과학자에게 요구되는 실무 능력은 ?

일반적으로 얘기하는 데이터 과학자 Skill Sets

Programming

  • 컴퓨터 과학 지식
  • 프로그래밍 언어 (Python / R)
  • 데이터베이스 언어 (SQL / No SQL)
  • Relational Algebra
  • 병렬 처리 컴퓨팅
  • Map Reduce 개념
  • Hadoop / Hive / Pig
  • AWS 같은 플랫폼 사용 경험

Math & Statistics

  • 연구 계획 (Experiment design)
  • Machine Learning
  • Statistical modeling
  • 베이지안 추론
  • 선형대수, 미적분
  • Supervised Learning
  • Unsupervised Learning
  • Optimization

Domain Knowledge

  • 비즈니스 이해 / 지식
  • Collaborative
  • 데이터에 대한 호기심
  • 전략적 사고 / 기획력
  • 문제 해결능력
  • Proactive / Creativity

Communication

  • 상급자와의 원활한 의사소통 능력
  • 스토리텔링 능력
  • 데이터 기반 인사이트를 의사결정에 활용하는 능력
  • PPT, DOC 등 문서 작성 능력
  • 시각화 (Visualization)
  • 발표 / 설득력

즉, 데이터 과학자란

데이터 과학은 컴퓨터를 활용해서 데이터를 분석하고 현실의 문제들은 해결하는 것

-> 컴퓨터와 IT 기술을 활용하고 프로그래밍을 할 수 있는 능력을 가진 사람이 수학과 통계학 지식을 이용해서 도메인의 문제를 해결하는 사람 !

 

그러나, 데이터 과학자의 Skill set 은 너무나 많고 복잡한 이론들이 합쳐진 것으로 이 모든 것을 아우를 수 있는 사람은 거의 없음. 그래서 위의 Skill set 을 전부 가진 데이터 과학자를 유니콘 이라고도 부름

 

즉, 전부 아는 사람은 거의 없기에, 문제를 해결하기 위해 개인이 아닌 팀으로 업무를 수행

 

그래서, 데이터 과학 업무를 수행하기 위해서는 협업이 중요함

데이터 과학자  비즈니스 실무자 ↔ IT 엔지니어 ↔ 데이터 과학자

 

도메인 전문성의 중요성

문제를 해결하기 위해서는 문제에 대한 원인 및 결과에 영향을 끼칠 수 있는 요인 들에 대해 파악할 필요가 있음

이러한 작업을 하기 위해서는 도메인에 대한 이해가 필수적이며 이러한 이유로 도메인 전문성이 중요함

 

머신러닝 업무 프로세스

이상적인 머신러닝 업무 프로세스는 위와 같이 일련의 흐름으로 진행이 됨

그러나, 현실적인 머신러닝 업무 프로세스는 아래와 같음

각각의 작업을 수행하며 잘못된 부분 (e.g. 모델구축 & 분석시 문제의 정의가 부족함을 파악 등) 을 발견 시 해당 업무로 돌아가여 작업을 수행함

 

머신러닝 업무 프로세스는 위와 같으며 각 업무에 대한 상세 내용은 다음과 같음

 

1. 문제파악 및 문제정의

  • 비즈니스 문제 파악
  • 머신러닝 문제로 전환
  • 머신러닝 도입 필요성 / 가능성 체크
  • 도입에 따른 효과검증 설계

2. 데이터 준비

  • 가능한 다양하고 많은 데이터 확보
  • 머신러닝을 도입할 시스템 설계
  • 데이터 분석 및 이해 - Understanding
  • 데이터 분석 및 이해 - Preprocessing
  • 데이터 분석 및 이해 - Exploring
  • Feature Engineering
  • 학습, 검증, 테스트 데이터셋 생성

3. 머신러닝 모델 구축 & 분석

  • 사용할 모델 / 알고리즘 선택
  • 실무적 제약사항 고려
  • 하이퍼 파라미터 설정
  • 모델 학습

4. 결과 공유

  • 코드 배포 (Productionize)
  • 보고서 작성, 결과정리 및 발표

5. 모니터링

  • 모델의 성능을 지속적으로 추적
  • 효과검증 결과 추적
  • 지속적인 유지 보수 계획 / 실행

머신러닝을 위한 데이터 과학자가 사용할 수 있는 도구는 다음과 같음

  • Excel
  • Python
  • R

이중 Python 머신러닝 Tool Box 는 다음과 같음

  • IPython
  • Jupyter
  • NumPy
  • SciPy
  • Pandas
  • Matplotlib
  • TensorFlow
반응형