데이터 과학자로 시작하기 전에 알고 싶은 12 가지

저는 3 년 이상 데이터 과학자였습니다. 학생들로부터 현장에 대한 조언을 요청 받았으므로 여기에 몇 가지 생각이 있습니다. 먼저, 내가 현장에 들어 왔을 때 내가 알고 싶었던 몇 가지 사항을 나열하고, 둘째로 졸업 후 데이터 과학자가되고 싶은 학생들을위한 표준 조언을하겠습니다.

데이터 과학에 대해 알고 싶은 것

걱정할 도구가 너무 많아서 실제로 사용할 도구는 거의 없습니다

‘데이터 과학’은 모호한 용어이므로 적절하게 처리하십시오.

데이터 과학은 사실상 모든 양적 작업을 다룰 수 있습니다. 다른 회사 또는 같은 회사의 두 데이터 과학자는 완전히 다른 유형의 작업을 수행 할 수 있습니다. 이 분야는 점차 데이터 엔지니어, 데이터 분석가, 기계 학습 엔지니어 등과 같은보다 구체적인 직책으로 구성되어 왔습니다. 이 전문화 과정은 확실히 가속화 될 것입니다. 따라서 데이터 과학에 대해 이야기하거나 직업에 지원할 때는 해당 상황에 대한 데이터 과학의 특정 관련 정의가 무엇인지 파악하고 자신과 일치하는지 확인하십시오. 특히, 특정 데이터 과학 역할에서 결과물이 무엇인지 알아내는 것이 유용합니다. 프로덕션 시스템에있는 코드를 작성해야합니까? 데이터 파이프 라인을 작성해야합니까? 오프라인 데이터에 대한 분석을 작성 하시겠습니까? 그렇다면 어떤 종류의 분석을 수행 하시겠습니까? 직무 내용은 실제로 직무 내용을 읽는 것보다 낫습니다. 직무 내용은 실제 직무 내용을 자세히 설명하는 것이 아니라 역할에 대한 다양한 후보를 유치하기 위해 작성되는 경향이 있기 때문에 실제 직무 설명을 읽는 것보다 낫습니다.

임 포스터 증후군은 일의 정상적인 부분입니다

모든 데이터 과학자는 임 포스터 증후군을 경험합니다. 나는 직업의 의미있는 부분이 그것을 탐색하고 있음을 발견했다. 항상 모르는 것이있을 것입니다. 위에서 언급했듯이,이 분야는 잘 정의되지 않았기 때문에 '데이터 과학'의 정의에 해당 할 수있는 엄청나게 많은 주제가 있습니다. 블로그 나 Quora를 읽으면 세계적 수준이되어야한다고 느끼게됩니다 스탠포드 박사 통계 학자, 구글 캘리버 엔지니어, 맥킨 지급 비즈니스 전문가가 모두 데이터 과학자가되었습니다. 현실은 모든 사람이 완벽하지는 않다는 것입니다. 어떤 기술에서든 마술처럼 완벽 했더라도 각 프로젝트마다 해당 기술의 일부만 사용하므로 사용하지 않은 기술로는 실습 할 수 없습니다. 훌륭한 데이터 과학자가되기 위해해야 ​​할 일은 유용한 데이터를 사용하는 방법을 찾는 것입니다. 그렇게하는 방법에는 여러 가지가 있습니다. 때때로 임 포스터 증후군을 느끼는 것이 좋습니다. 그것이 정상임을 알고 그냥 실망시키지 마십시오. 대신, 새로운 성장 기회로 배울 수있는 새로운 것이있는 상황을 포용하고 다음에 자신이 모르는 사람을 만날 때 그 느낌을 명심해야합니다.

모든 도구를 알 필요는 없습니다.

Hadoop, Spark, Yarn, Julia, Kafka, Airflow, Scalding, Redshift, Hive, TensorFlow, Kubernetes… 끝없는 데이터 과학 코딩 언어, 프레임 워크 및 도구가 있습니다. 이전에 데이터 과학 분야에서 일한 적이 없다면 실제 데이터 과학자가되기 위해 모든 것을 알아야한다는 느낌이 듭니다. 누군가 대화에서 알지 못하는 도구에 대해 언급 할 때마다 나는 내부적으로 조용히 놀라게하고 내가 폭식 할 수있는 주제에 대해 Coursera 수업을 찾기 위해 정신적 메모를 작성했습니다. 다행히 데이터 과학 도구의 99 %를 무시해도됩니다. 결국 회사에는 자체 도구 세트가 있습니다. 회사의 모든 직원은 이러한 도구를 잘 사용하고 다른 도구에 대해서는 전혀 알지 못합니다. 또한 이전에 특정 도구 세트를 사용해 본 적이없는 훌륭한 회사는 없습니다. 당신이 정말로 전문적인 역할을하지 않는다면, 그들은 당신이 직업에 대한 그들의 스택을 배울 수있을 것으로 기대할 것입니다. 인터뷰를 통과하기에 충분해야합니다. 귀하에게 적합한 작은 도구 세트를 선택하십시오. 편하게 지내고 직장에있을 때까지 너무 많이 가지를 걱정하지 마십시오.

그러나 기본 도구를 잘 배우십시오

모든 도구를 알 필요는 없지만 매일 사용하는 기본 도구에 대해 깊이 알아야합니다. 최적화 된 쿼리를 작성하는 방법과 같이 회사에서 사용하는 SQL 언어의 지루한 부분을 배우는 것을 결코 후회하지 않을 것입니다. R을 사용하는 경우 ggplot2 및 dplyr의 기능을 익히십시오. 파이썬을 사용한다면 팬더, numpy 및 scipy를 실제로 이해하십시오. 나는 몇 달 동안 자식을 아는 척했지만 항상 자식 매듭에 묶여 있었다. 마지막으로이 도구에 대한 훌륭한 자습서를 읽었습니다. 그런 다음, git-invincible를 느꼈습니다. 정기적으로 무언가를 사용하는 경우 시간을내어 간단히 설명서를 읽으십시오.

당신은 방법뿐만 아니라 도메인의 전문가입니다

데이터 과학은 연구 과학 역할과 비즈니스 분석가 역할의 절충안이되었습니다. 전자는 강력한 방법을 사용했지만 간접적으로 비즈니스 의사 결정에만 영향을 미쳤지 만 후자는 비즈니스 소유자에게 직접 영향을 미쳤지 만 제한된 도구를 사용했습니다. 데이터 과학자는 양측을 함께 결합하여 심층적 인 지식과 올바른 통계 및 엔지니어링 도구를 결합하여 더 나은 의사 결정이나 유용한 데이터 제품을 만들 때 가장 큰 영향을줍니다.

내 경험상, 대부분의 데이터 과학자들은 연구 과학자 방향으로 너무 멀리 기울어지고 비즈니스 분석가 경로로 충분히 멀지 않습니다. 그들은 멋진 기술을 사용하는 것을 좋아하지만 자신의 영역에 대해 배우는 데 투자하지 않습니다. 그들은 기계 학습 회의에 가지만 마케팅이나 위험에 관한 회의에는 거의 참석하지 않습니다. 많은 데이터 과학자들은 자신이 도메인을 가지고 있다는 사실조차 깨닫지 못합니다. 작동하는 분야에 대한 지식이 풍부하고 도메인 지식이없는 팀은 비즈니스 파트너로부터 또는 다른 회사의 유사한 팀과 대화하여 배울 수 있습니다. 도메인을 아는 것은 절반의 전투이므로,‘열심 한 기술’과 마찬가지로 시간을 투자하십시오.

가장 중요한 기술은 비판적 사고입니다

지식 작업의 중요한 부분은 무엇이 중요하지 않은지를 결정하는 것입니다. 완벽한 분석을 수행 할 수는 있지만 잘못된 문제를 해결했거나 통찰력이 실행 가능하지 않은 경우에는 문제가되지 않습니다. 작업의 광범위한 맥락에 대해 생각하는 데 적극적으로 시간을 투자 할 가치가 있습니다. 팀에서 가장 중요한 과제는 무엇이며 그 이유는 무엇입니까? 현재 로드맵이 팀을 돕는 가장 좋은 방법입니까, 아니면 계획을 변경해야합니까? 이러한 질문에 대한 답변은 시간이 지남에 따라 변경 될 수 있으므로 정기적으로 체크인하는 것이 중요합니다. 많은 데이터 과학자들이 단순히 관성 때문에 너무 오랫동안 길을 행진하는 것을 보았습니다.

학생이 데이터 과학자가되기 위해해야 ​​할 일

테크니컬 클래스뿐만 아니라 관련 클래스 수강

물론 통계와 컴퓨터 과학 수업이 그 일에 도움이 될 것입니다. 그러나 많은 수업이 도움이 될 수 있습니다. 비판적으로 사고하고 철학, 역사 또는 영어와 같은 서면 논증을하는 데 도움이되는 모든 것이 유용 할 수 있습니다. 이는 데이터 과학에서 많은 일을하기 때문입니다. 경제학이나 양적 심리학과 같은 사회 과학 과목은 인과 추론을하는 경험을 얻는 데 유용 할 수 있습니다. 내가 자주 생각하는 수업은 내가 설득력있는 말하기 수업이며, 나는 정기적으로 업무를 수행합니다. 기술 수업에 대한 공평한 분배를 받으 되 광범위하게 배우고 관심사를 따르십시오. 저의 전략은 항상 훌륭한 교수와 함께 훌륭한 음절을 다루는 것이 었습니다. 나는 여전히 모든 대학생, 데이터 과학에 추천합니다.

의사 소통 – 글쓰기, 시각 및 언어

의사 소통 기술은 데이터 과학에서 매우 중요하며 만성적으로 저평가되어 있습니다. 분석을 기반으로 의사 결정을 내리거나 제품을 구축 할 수 있도록 다른 사람을 설득해야하기 때문에 의사 소통 능력만큼의 영향을 미칠 수 있습니다. 따라서 매우 기술적 인 데이터 과학자의 경력은 명확하게 쓰거나 말할 수 없기 때문에 암시 적으로 제한됩니다. 작문, 시각적, 언어 적 세 가지 형태의 연습은 실질적인 차이를 만듭니다. 글쓰기가 약하거나 영어가 모국어가 아니라고 생각되면 많은 글을 쓰는 수업을 들으십시오. 많은 캠퍼스에는 피드백을받을 수있는 쓰기 센터가 있습니다. 그것은 당신이 그것을 가지고있는 동안 활용할 수있는 자원입니다.

실제 데이터 문제에 대한 작업

Kaggle은 모델링 학습에 유용합니다. 그러나 Kaggle을 사용하면 가장 어려운 부분이 이미 완료된 것입니다. 해당 데이터로 해결할 문제를 수집, 정리 및 정의하는 것입니다. 데이터 과학자로서 직업을 준비하는 가장 좋은 방법은 실제 데이터를 사용하여 실제 질문에 대답하는 것입니다. 그 이유는 간단합니다. 실제로 직업을 갖지 않고도 실제 직업에 접근 할 수있는 가장 가까운 것입니다. 관심있는 것을 찾아서 자신의 데이터를 얻으십시오. 인터넷에서 데이터를 긁어내는 것이 BeautifulSoup, Scrapy 및 rvest와 같은 패키지로 대부분의 초보자가 인식하는 것보다 훨씬 쉽습니다. Wikipedia와 Reddit은 영감이 필요한 경우 좋은 대상이지만 최선의 선택은 진정으로 탐험하는 것에 대한 흥분입니다. 그런 다음 관심있는 질문을하고 얼마나 잘 대답 할 수 있는지보십시오. 데이터를 정리하고 그래프와 모델을 만든 다음 결론을 공개적으로 작성하십시오. 처음에는 느리게 진행되지만 배우기 때문입니다. 가능하면 이해 관계자 관리를위한 실습을 위해 학교 스포츠 팀의 통계 작업이나 학교 신문의 폴링 분석과 같은 지역 사회 사람들의 실제 문제를 해결하십시오.

작업을 게시하고 피드백을 얻을 수 있습니다.

무엇이든 개선하는 유일한 방법은 피드백을 얻는 것입니다. 데이터 작업도 예외는 아닙니다. 요즘에는 노트북을 Github 또는 개인 웹 사이트에 게시하기가 매우 쉽습니다. 친구가 관심있는 주제에 대해 글을 쓰면 친구의 반응에 대해 많은 것을 배울 수 있습니다. 당신의 프리젠 테이션에서 어떤 점이 매력적 이었습니까? 불분명 한 것은 무엇입니까? 당신은 그들에게 당신의 주요 주장을 설득 할 수 있었습니까? 그들은 지루 해져서 끝까지 읽지 않았습니까? 결정적으로 코드를 사용 가능하게하고 다른 학생들로부터 코드 검토를 받으면 서로 더 나은 결과를 얻을 수 있습니다. 강의실의 기술을 사용하는 경우 교수님이 한 일을 교수님에게 보여주고 일부 이니셔티브를 보여 주면서 전문가의 피드백을받을 수도 있습니다. 그리고 분석 결과 중 하나가 인터넷에서 바이러스에 감염되면 직장에서 벗어날 수도 있습니다.

해커 톤, ​​컨퍼런스, 밋업 등 이벤트로 이동

지역과 예산이 허용하는 한도 내에서 학생이있는 동안 외부 데이터 과학 세계와 교류하십시오. 그렇게하면 현장의 현실을 더 잘 이해하고 네트워킹을 시작할 수 있습니다. 대부분의 주요 도시에는 데이터 과학 모임과 해커 톤이 있으며 제 경험상 대부분의 사람들은 학생들에게 매우 친절합니다. 컨퍼런스는 일반적으로 학생들을 위해 티켓을 대폭 할인했습니다. 친구들과 함께 가면 함께 재미있는 여행을 할 수 있습니다!

필드를 입력하는 방법에 유연

데이터 과학은 경쟁 분야입니다. 훌륭한 데이터 과학 브랜드를 보유한 기술 회사는 제한되어 있으며 여름 인턴십과 엔트리 레벨 역할을위한 전투는 치열합니다. 그러나 소량의 실제 데이터 과학 작업 경험이 있으면 현장에서 두 번째 직업을 얻는 것이 훨씬 쉽습니다. 잘 알려지지 않은 회사에서도 벨트를 착용 한 데이터 과학자들은 종종 최고 회사에 고용하는 데 어려움이 거의 없습니다. 따라서 데이터 과학자가되고 싶고 유명한 회사 중 한 곳에서 바로 제안을받지 못하면 구직 범위를 넓히십시오. 해결해야 할 흥미로운 문제가있는 회사가 많이 있습니다.

읽어 주셔서 감사합니다! 위의 의견 수집 글 머리 기호에 따라 귀하의 의견을 듣고 싶습니다. — 아래에 의견을 남겨주세요.