머신 러닝 인터뷰를위한 25 가지 재미있는 질문

기계 학습 인터뷰 질문이 동시에 재미 있고 깊을 수 있습니까?

이미지 출처 : https://xkcd.com/1838/

많은 데이터 과학자들이 대부분 데이터 실무자의 관점에서 머신 러닝 (ML)을 연구합니다. 결과적으로, 우리는 가능한 한 많은 새로운 패키지, 프레임 워크, 기술에 대해 배우고 핵심 이론적 측면에 대한 심층적 인 검토에 덜 집중할 수 있습니다. 그리고 여기서 머신 러닝에 대한 나의 정의는 모든 표준 통계 학습을 포함합니다 (즉, 딥 러닝만을 구성하지는 않습니다).

그러나 약간의 노력으로 조사하고 고민하면서 많은 훌륭한 ML 질문을 얻을 수 있습니다.이 질문에 답하고 분석하면 더 깊은 측면을 아름답게 드러 낼 수 있습니다. 기본적으로 이러한 질문은 위에 표시된이 더미에서 머리를 빼내는 데 도움이 될 수 있습니다. 우리는 하루 종일 데이터 세트를 약동하고 싶지 않으며, 머신 러닝 기술의 특성, 단점 및 복잡성을 깊이 파고 들고 그것을 수용하고 싶습니다…

결국, 인터넷에는 "머신 러닝에 대한 표준 인터뷰 질문"에 관한 많은 기사가 있습니다. 우리는 조금 다른 재미를 할 수 있습니까?

면책 조항 : 나는 생각하고 토론을 자극하기위한 질문을 게시하고 있습니다. 기성 답변이 제공되지 않습니다. 일부 질문에는 힌트가 있지만 실제로는 명확한 답이 아니라 더 많은 토론을위한 것입니다. 각 질문은 더 자세히 논의 할 가치가 있습니다. 정답이 없습니다. 어떤 질문은 생각되고, 어떤 질문은 단지 재미를위한 것입니다. 그냥 즐기십시오 :-) 부팅하려면 5 번째 질문마다 재미있는 밈이 삽입됩니다…

재미있는 질문

  • 95 % 신뢰 구간을 나타내는 선형 회귀 모델을 만들었습니다. 내 모델 계수가 근사하려는 함수의 실제 추정치 일 확률이 95 %라는 것을 의미합니까? (힌트 : 실제로 시간의 95 %를 의미합니다…)
  • Hadoop 파일 시스템과 k- 최근 접 이웃 알고리즘의 유사점은 무엇입니까? (힌트 :‘게으른’
  • 표현력 측면에서 어떤 구조가 더 강력합니까 (즉, 주어진 부울 함수를 정확하게 표현할 수 있습니까) — 단일 계층 퍼셉트론 또는 2 계층 의사 결정 트리? (힌트 : XOR)
  • 그리고 어떤 기능이 더 강력합니까? 활성화 기능이없는 2 계층 의사 결정 트리 또는 2 계층 신경망? (힌트 : 비선형 성?)
  • 신경망을 차원 축소 도구로 사용할 수 있습니까? 방법을 설명하십시오.
  • 모든 사람은 선형 회귀 모델에서 절편 항을 정렬하고 무시합니다. 그 유틸리티 중 하나를 알려주세요. (힌트 : 소음 / 가비지 컬렉터)
  • LASSO 정규화는 계수를 정확히 0으로 줄입니다. 릿지 회귀는 매우 작지만 0이 아닌 값으로 줄입니다. 간단한 두 함수의 도표에서 차이점을 직관적으로 설명 할 수 있습니까? x | x²? (힌트 : | x | 플롯의 날카로운 모서리)
  • 데이터 세트 (연속 값)가 나온 분포에 대해 아무것도 모르고 정규 가우스라고 가정하는 것이 금지되어 있다고 가정 해 봅시다. 실제 분포가 무엇이든 상관없이 가능한 가장 간단한 인수로 데이터의 ~ 89 %가 평균에서 +/- 3 표준 편차 내에 있음을 보장 할 수 있습니다 (힌트 : Markov의 Ph.D. 고문)
  • 대부분의 머신 러닝 알고리즘에는 곱셈이나 반전과 같은 일종의 행렬 조작이 포함됩니다. 이러한 ML 알고리즘의 미니 배치 버전이 전체 데이터 세트를 사용한 훈련보다 계산적으로 더 효율적인 이유를 간단한 수학적 주장으로 설명하십시오. (힌트 : 행렬 곱셈의 시간 복잡성…)
  • 시계열은 반응 변수가 하나이고 예측 변수가 하나 인 시간이 매우 간단한 선형 회귀 문제라고 생각하지 않습니까? 시계열 데이터의 경우 선형 회귀 적합 법 (단일 선형 항은 아니지만 다항도 항의 경우도) 접근 방식의 문제점은 무엇입니까? (힌트 : 과거는 미래의 지표입니다…)
  • 가능한 모든 트리 구조 중에서 분류 문제에 대한 최적의 결정 트리를 찾는 것이 기하 급수적으로 어려운 문제가 될 수 있다는 간단한 수학적 주장으로 보여줍니다. (힌트 : 정글에 몇 개의 나무가 있습니까?)
  • 의사 결정 트리와 심층 신경망은 모두 비선형 분류기이므로 복잡한 의사 결정 경계로 공간을 분리합니다. 그렇다면 의사 결정 트리 모델과 심층 신경망을 직관적으로 따르는 것이 왜 훨씬 쉬운가?
  • 역전 파는 딥 러닝의 핵심입니다. 역 전파를 사용하지 않고 신경망을 훈련시키기위한 몇 가지 가능한 대안 기술을 언급하십시오. (힌트 : 랜덤 검색…)
  • 선형 회귀와 로지스틱 회귀 (분류)의 두 가지 문제가 있다고 가정하겠습니다. 새로 발견 된 초고속 대형 행렬 곱셈 알고리즘의 이점 중 어느 것이 더 유리합니까? 왜? (힌트 : 어느 것이 매트릭스 조작을 사용하는 것입니까?)
  • 주요 성분 분석에 예측 변수 간의 상관 관계가 미치는 영향은 무엇입니까? 어떻게 해결할 수 있습니까?
  • 지구에 미치는 운석 영향에 대한 분류 모델을 작성해야합니다 (인간 문명에 중요한 프로젝트). 예비 분석 후 99 %의 정확도를 얻습니다. 행복해야합니까? 왜 안돼? 그것에 대해 무엇을 할 수 있습니까? (힌트 : 희귀 이벤트…)
  • 연속 변수와 범주 변수 사이의 상관 관계를 포착 할 수 있습니까? 그렇다면 어떻게?
  • 유전자 발현 데이터로 작업하는 경우 종종 수백만 개의 예측 변수가 있으며 수백 개의 샘플 만 있습니다. 회귀 모델을 작성하는 경우 이러한 상황에 보통 최소 제곱이 적합하지 않은 이유를 간단한 수학적 주장으로 제시하십시오. (힌트 : 일부 행렬 대수…)
  • k- 폴드 교차 검증이 시계열 모델에서 제대로 작동하지 않는 이유를 설명하십시오. 그것에 대해 무엇을 할 수 있습니까? (힌트 : 즉시 과거는 가까운 미래의 지표입니다…)
  • 훈련 및 검증 세트에 대한 훈련 데이터 세트의 간단한 무작위 샘플링은 회귀 문제에 효과적입니다. 그러나 분류 문제에 대한이 접근 방식으로 무엇이 잘못 될 수 있습니까? 그것에 대해 무엇을 할 수 있습니까? (힌트 : 모든 수업은 같은 정도입니까?)
  • 모델 정확도 또는 모델 성능 중 어느 것이 더 중요합니까?
  • 여러 CPU 코어를 활용할 수 있다면 임의 포리스트보다 부스트 트리 알고리즘을 선호합니까? 왜? (힌트 : 작업을 수행 할 손이 10 개인 경우 활용하십시오)
  • 데이터 세트가 선형으로 분리 가능한 것으로 알려져 있으며 알고리즘의 수렴 및 최대 반복 / 단계 수를 계산해야한다고 상상해보십시오 (계산적 리소스 이유로 인해). 이 경우 그라데이션 하강을 선택 하시겠습니까? 무엇을 선택할 수 있습니까? (힌트 : 어떤 간단한 알고리즘이 솔루션 찾기를 보장합니까?)
  • 메모리 / 스토리지가 매우 작다고 가정 해 봅시다. 로지스틱 회귀 분석 또는 k- 최근 접 이웃 알고리즘 중 어떤 알고리즘을 선호하십니까? 왜? (힌트 : 공간 복잡성)
  • 기계 학습 모델을 처음 구축하려면 100 개의 데이터 요소와 5 개의 기능이 있습니다. 바이어스를 줄이기 위해 기능을 두 배로 늘려서 5 개 이상의 변수를 포함시키고 100 개 이상의 데이터 포인트를 수집했습니다. 이것이 올바른 접근법인지 설명하시오? (힌트 : 머신 러닝에 대한 저주가 있습니다. 들어 보셨나요?)

다른 재미있는 ML 질문이나 공유 할 아이디어가 있으면 여기에 저자에게 문의하십시오. 좋은 질문은 생성하기 어렵고 호기심을 유발하고 깊이 생각하도록 강요합니다. 재미 있고 흥미로운 질문을함으로써 학습 경험을 즐겁고 풍부하게 만듭니다. 이 시도를 즐겼기를 바랍니다.