데이터 과학자는 누구인가 ?
데이터 과학은 컴퓨터를 확용해서 데이터를 분석하고 현실의 문제들을 해결 하는 것
데이터 과학자에게 요구되는 실무 능력은 ?
일반적으로 얘기하는 데이터 과학자 Skill Sets
Programming
- 컴퓨터 과학 지식
- 프로그래밍 언어 (Python / R)
- 데이터베이스 언어 (SQL / No SQL)
- Relational Algebra
- 병렬 처리 컴퓨팅
- Map Reduce 개념
- Hadoop / Hive / Pig
- AWS 같은 플랫폼 사용 경험
Math & Statistics
- 연구 계획 (Experiment design)
- Machine Learning
- Statistical modeling
- 베이지안 추론
- 선형대수, 미적분
- Supervised Learning
- Unsupervised Learning
- Optimization
Domain Knowledge
- 비즈니스 이해 / 지식
- Collaborative
- 데이터에 대한 호기심
- 전략적 사고 / 기획력
- 문제 해결능력
- Proactive / Creativity
Communication
- 상급자와의 원활한 의사소통 능력
- 스토리텔링 능력
- 데이터 기반 인사이트를 의사결정에 활용하는 능력
- PPT, DOC 등 문서 작성 능력
- 시각화 (Visualization)
- 발표 / 설득력
즉, 데이터 과학자란
데이터 과학은 컴퓨터를 활용해서 데이터를 분석하고 현실의 문제들은 해결하는 것
-> 컴퓨터와 IT 기술을 활용하고 프로그래밍을 할 수 있는 능력을 가진 사람이 수학과 통계학 지식을 이용해서 도메인의 문제를 해결하는 사람 !
그러나, 데이터 과학자의 Skill set 은 너무나 많고 복잡한 이론들이 합쳐진 것으로 이 모든 것을 아우를 수 있는 사람은 거의 없음. 그래서 위의 Skill set 을 전부 가진 데이터 과학자를 유니콘 이라고도 부름
즉, 전부 아는 사람은 거의 없기에, 문제를 해결하기 위해 개인이 아닌 팀으로 업무를 수행
그래서, 데이터 과학 업무를 수행하기 위해서는 협업이 중요함
데이터 과학자 ↔ 비즈니스 실무자 ↔ IT 엔지니어 ↔ 데이터 과학자
도메인 전문성의 중요성
문제를 해결하기 위해서는 문제에 대한 원인 및 결과에 영향을 끼칠 수 있는 요인 들에 대해 파악할 필요가 있음
이러한 작업을 하기 위해서는 도메인에 대한 이해가 필수적이며 이러한 이유로 도메인 전문성이 중요함
머신러닝 업무 프로세스
이상적인 머신러닝 업무 프로세스는 위와 같이 일련의 흐름으로 진행이 됨
그러나, 현실적인 머신러닝 업무 프로세스는 아래와 같음
각각의 작업을 수행하며 잘못된 부분 (e.g. 모델구축 & 분석시 문제의 정의가 부족함을 파악 등) 을 발견 시 해당 업무로 돌아가여 작업을 수행함
머신러닝 업무 프로세스는 위와 같으며 각 업무에 대한 상세 내용은 다음과 같음
1. 문제파악 및 문제정의
- 비즈니스 문제 파악
- 머신러닝 문제로 전환
- 머신러닝 도입 필요성 / 가능성 체크
- 도입에 따른 효과검증 설계
2. 데이터 준비
- 가능한 다양하고 많은 데이터 확보
- 머신러닝을 도입할 시스템 설계
- 데이터 분석 및 이해 - Understanding
- 데이터 분석 및 이해 - Preprocessing
- 데이터 분석 및 이해 - Exploring
- Feature Engineering
- 학습, 검증, 테스트 데이터셋 생성
3. 머신러닝 모델 구축 & 분석
- 사용할 모델 / 알고리즘 선택
- 실무적 제약사항 고려
- 하이퍼 파라미터 설정
- 모델 학습
4. 결과 공유
- 코드 배포 (Productionize)
- 보고서 작성, 결과정리 및 발표
5. 모니터링
- 모델의 성능을 지속적으로 추적
- 효과검증 결과 추적
- 지속적인 유지 보수 계획 / 실행
머신러닝을 위한 데이터 과학자가 사용할 수 있는 도구는 다음과 같음
- Excel
- Python
- R
이중 Python 머신러닝 Tool Box 는 다음과 같음
- IPython
- Jupyter
- NumPy
- SciPy
- Pandas
- Matplotlib
- TensorFlow
'기타 > 머신러닝' 카테고리의 다른 글
머신러닝 실무 정리 (0) | 2022.04.19 |
---|---|
머신러닝 공부를 위한 데이터 관련 개념 정리 (0) | 2022.04.18 |
머신러닝과 데이터 과학 쌩 기초 (0) | 2022.04.18 |