데이터 과학자(Data Scientist)가 되기 위한 10단계
이 포스팅은 이 글 에 있는 포스팅을 번역한 내용입니다. 오역이나 의역이 있을 수 있습니다.
Original source of this posting os form this article If the original quthor requests deletion, it will be deleted immediately.
최고의 엔지니어라도 data scientist가 되는건 쉽지 않습니다. 그러나 누구에게나 어렵지는 않으며 미리 알아야 할 몇 가지가 있습니다. 이 기사에서는 이를 살펴보고 데이터과학에서 성공 하기위한 로드맵을 제공합니다.
1. What you need to do
- 목표 시간 설정하라
- 코드를 작성하기 위해 알아야 할 지식/경험을 계획하라
- 훌륭한 조언을 해주는 똑똑한 사람에게 시간을 할애하라
- 흥미로운 데이터셋을 선택하고 검색해보아라
- 가장 큰 도전은 시작하는 것
- 이진 분류를 잊어라 : 교차 검증(cross-validation) 및 베이지안 알고리즘(Bayesian algorithms)은 훌륭한 데이터 과학자가 되는데 도움이 될 것임
- 데이터 과학 인터뷰에서 올바르게 질문하는 방법을 배워라
2. Problem Statement
모든 질문에 문제 서술을 영어로 작성합니다. 제가 이미 데이터 과학의 문제들을 읽을 수 있게 포스트로 작성해놨습니다.
3. Write some code
코드를 작성하고 돌려보세요. 면접관은 코드를 보고 질문할 것입니다.
- 데이터 준비에 얼마나 시간이 걸리는지
- 문제를 해결하기 위해 팀에 몇명이 필요한지
- 무엇이 잘못 될 수 있나요? 이건 작업하기 쉬운 도구 3가지를 선택하는 힌트를 줍니다.
- 문제를 해결하는 데 사용할 도구를 작성하세요
4. Prepare and evaluate your answers
간결하면서 독창적인 해결방법이 있는지 확인합니다.
5. Review your answers
답변을 수정하고 기존 framework나 tool을 사용하지 않는 이유를 스스로에게 물어봅니다.
이러면 스스로 더 배울 필요가 있는 영역을 구분하고 향후 면접을 위해 자료를 작성하는데 도움이 됩니다.
6. Show your solution to the problem
추가로, 해결방법을 준비해 제 3자인 면접 관련 조직에게 연락을취해 보여주고 도움을 받으면 좋습니다.
당신의 해결방법을 노트북에 준비하고 팀과 해결방법에 대해 토의합니다.
7. Identify Assumptions
면접관이 회사에 있다고 가정하고 해야할 일들을 정의하세요. 다른 사람들로부터 스스로 돋보이기 위해서는 이 가정은 생략/타협하면 안됩니다.
8. Identify Solutions
팀이 예상한 것들과 해야할 일들을 확인해보세요. 시간이 있다면 이러한 것들을 검토해보는 것도 좋습니다.
9. Use the Pareto Principle
통계의 개념 인 파레토 분포 법칙을 사용하세요. 이 경우 분포는 독립 이벤트 중 가장 좋은 결과를 제공할 가능성이 높습니다.
10. Build a model
모든 질문에는 가지고 있는 데이터에 맞는 답이 있습니다. 강력한 해결방법을 정의하고 적용하는데 시간을 투자하여 향후 있을 면접에서 입증하세요.
프로그래밍 경험은 데이터 과학에서 매우 중요합니다. 코드없이 코드를 실행하고 버그를 찾아야합니다. 이 경우 코드가 없는 것보다 더 나쁜 코드는 없습니다. 코드를 다시 작성하고 버그를 수정하라는 메시지가 보인다면 data scientist에게 문의하세요.
프로그래밍 언어의 차이는 문화차이보다 중요하지 않습니다. 두 그룹의 learning curve가 당신이 좋은 기회를 갖기 위해 어디에 집중해야 하는지 고르는 데 도움이 될 겁니다.