Quelles sont les bonnes questions d'entrevue pour les candidats au développement d'algorithmes statistiques?

15

J'interviewe des personnes pour un poste de développeur / chercheur d'algorithmes dans un contexte de statistiques / d'apprentissage automatique / d'exploration de données.

Je recherche des questions à poser pour déterminer, en particulier, la familiarité, la compréhension et la fluidité d'un candidat avec la théorie sous-jacente, par exemple les propriétés de base de l'attente et de la variance, certaines distributions communes, etc.

Ma question actuelle est la suivante: «Il y a une quantité inconnue que nous aimerions estimer. À cette fin, nous avons des estimateurs Y 1 , Y 2 , , Y n qui, étant donné X , sont tous sans biais et indépendants, et chacun a une variance connue σ 2 i , différente pour chacun. Trouver l'estimateur optimal Y = f ( Y 1 , , Y n ) qui est sans biais et a une variance minimale. "XOui1,Oui2,,OuinXσje2Oui=F(Oui1,,Ouin)

Je m'attendrais à ce que tout candidat sérieux le gère facilement (compte tenu du temps nécessaire pour effectuer les calculs), et pourtant je suis surpris du nombre de candidats censés provenir de domaines pertinents qui ne parviennent pas à faire le moindre progrès. Je considère donc que c'est une bonne question discriminatoire. Le seul problème avec cette question est qu'elle n'en est qu'un.

Quelles autres questions peuvent être utilisées pour cela? Sinon, où puis-je trouver une collection de ces questions?

Meni Rosenfeld
la source
7
Pour de nombreuses personnes en apprentissage automatique (y compris les bonnes), cette question est bien en dehors de leur zone de confort. Il s'agit d'une question statisticienne évidente.
Marc Claesen
4
Cette question est légitimement un sujet on / off limite. Cependant, il a de nombreuses vues, plusieurs votes positifs, une réponse avec plusieurs votes positifs, et, en outre, est CW. Il pourrait rester ouvert, OMI.
gung - Rétablir Monica
2
La question de référence pourrait être formulée de manière confuse. Par exemple, l'utilisation de X avec une majuscule ferait paraître aléatoire. Mais puisque vous mentionnez la variance minimale, il semblerait que vous souhaitiez que X soit non aléatoire (dans ce cas, pourquoi la variance des estimateurs n'a-t-elle pas une dépendance écrite de X ?)XXX
Batman
4
Un point de prudence, Google a fait une grande étude de leur processus RH interne et a constaté que les scores des enquêteurs n'étaient pas du tout en corrélation avec les performances professionnelles suivantes !! Mon impression de la littérature ici est que (1) les questions de type puzzle sont les pires absolues, ne servant qu'à faire en sorte que l'intervieweur se sente intelligent (c.-à-d. 0 pouvoir de prévision) et (2) à reprendre, les questions basées sur l'expérience peuvent avoir une valeur prédictive. Les performances passées prévoient les performances futures et vous voudrez peut-être vous concentrer sur les questions pour vérifier quelles étaient leurs performances passées, mais l'entretien est beaucoup moins instructif que ne le pensent les enquêteurs.
Matthew Gunn
3
L'impartialité est garantie par la somme des poids à l'unité. Cependant, même en limitant votre solution à des combinaisons linéaires d'estimateurs, il est presque toujours vrai que plusieurs estimateurs basés sur les mêmes données seront fortement corrélés. (S'ils sont vraiment indépendants, alors ils seraient appliqués à des sous-ensembles indépendants et disjoints des données.) Il n'est pas du tout évident qu'une combinaison linéaire d'estimateurs sera optimale, cependant.
whuber

Réponses:

12

Que voulez-vous que votre développeur de statistiques fasse?

L'armée américaine dit "entraînez-vous, vous vous battrez, car vous vous battrez comme si vous étiez entraîné". Testez-les sur ce que vous voulez qu'ils fassent toute la journée. Vraiment, vous voulez qu'ils "créent de la valeur" ou "gagnent de l'argent" pour l'entreprise.

Boss 101

Pensez "montrez-moi l'argent".

  • L'argent pousse sur des arbres appelés employés. Vous mettez un «centime» (leur salaire) et ils vous paient un «quart» (leur valeur).
  • Si vous ne pouvez pas relier leur travail à la façon dont ils font de l'argent pour l'entreprise, ni vous ni eux ne faites leur travail correctement.

Remarque: Si votre question de manipulation symbolique ne se connecte pas proprement à «l'argent», vous vous posez peut-être la mauvaise question.

Il y a 3 choses que chaque employé doit faire pour être un employé:

  • Être réellement capable de faire le travail
  • Travaillez bien avec l'équipe
  • Être disposé / motivé à faire le travail

Si vous ne les obtenez pas solides, aucune autre réponse ne vous fera du bien.

Si vous pouvez les remplacer par un bon logiciel ou un adolescent bien formé, vous devrez éventuellement le faire et cela vous coûtera.

Données 101

Ce qu'ils devraient pouvoir faire:

  • utiliser vos saveurs internes de logiciels (réseau, système d'exploitation, bureau, présentation et analyse)
  • utiliser des versions de logiciels standard de l'industrie (Excel, R, JMP, MatLab, pick_three )
  • obtenir les données elles-mêmes. Ils doivent connaître les ensembles de données de base pour les tâches de base. Ils devraient connaître les référentiels. Ils devraient savoir quelles données célèbres sont utilisées pour quelle tâche. Fisher Iris. Crabe Pearson. ... il y a peut-être 20 éléments qui devraient aller ici. UCI, NIST, NOAA.
  • Ils doivent connaître les règles de traitement des données. Les données binaires (T / F) ont un contenu d'information très différent de catégorique (A, B, C, D) ou continu. Un traitement correct des données par type de données est important.
  • Quelques tâches statistiques de base comprennent: ces deux sont-ils identiques ou différents (aka cluster / classer), comment cela se rapporte-t-il à cela
    (régression / ajustement comprenant des modèles linéaires, glm, base radiale,
    équations de différence), est-il vrai que "x "(test d'hypothèse), de combien d'échantillons ai-je besoin (échantillonnage d'acceptation), comment puis-je obtenir le plus de
    données provenant d'expériences peu nombreuses / bon marché / efficaces (conception statistique de l'
    expérience) - avertissement, je suis ingénieur et non statisticien Vous pourriez leur demander la question "quelles sont les différentes tâches fondamentales, et comment testez-vous que le statisticien peut les faire efficacement et correctement?
  • accéder / utiliser les données elles-mêmes. Il s'agit de formats et d'outils.
    Ils devraient pouvoir lire à partir de csv, xlsx (excel), SQL et des
    images. (HDF5, Rdata) Si vous avez un format personnalisé, ils devraient
    pouvoir le lire et travailler avec les outils rapidement et
    efficacement. Ils doivent connaître la force / la faiblesse du format. CSV est une utilisation rapide, existe depuis toujours, prototype rapide, mais gonflé, inefficace et lent à exécuter.
  • traiter les données correctement, en utilisant les meilleures pratiques et en ne commettant aucun péché. Ne jetez jamais de données, jamais. Ne pas ajuster les données binomiales avec une ligne continue. Ne défiez pas la physique.
  • proposer des résultats reproductibles et reproductibles. Certaines
    personnes disent "il y a des mensonges, des putains de mensonges et des statistiques", mais pas dans mon
    entreprise. La même bonne entrée donne la même bonne sortie. La sortie n'est pas un nombre, c'est toujours une décision commerciale qui informe une
    action technique et aboutit à un résultat commercial. Différents tests peuvent régler le cadran à 5,5 ou 6,5, mais la capacité est toujours supérieure à 1,33.
  • présenter les résultats dans la langue et au niveau que les
    décideurs et / ou les développeurs de sbires, et / ou eux-mêmes en un an, peuvent
    comprendre avec le moins d'erreurs. Une belle chose est de pouvoir l'expliquer pour que votre grand-mère l'obtienne. Ce ( lien ) est ma réponse, mais j'aime ça.

Zingers analytiques:

Je pense que les questions impossibles sont grandes. Ils sont impossibles pour une raison. Être capable de savoir si quelque chose est impossible au départ est une bonne chose. Savoir pourquoi, avoir des moyens de l'engager ou être capable de poser une question différente peut être mieux.

Autres questions CV. ( lien ) Sur reddit. ( lien ) autres ( lien )

BTW: c'était une bonne question. Je devrais peut-être mettre à jour cette réponse au fil du temps.

EngrStudent
la source
3
Cela semble être une bonne réponse, pour une question différente de celle que j'ai posée. Je n'ai pas demandé comment choisir de bons employés (je demanderais probablement quelque chose comme ça sur lieu de travail.se si j'en avais besoin), j'ai posé des questions sur le test d'une qualification spécifique.
Meni Rosenfeld
Je vais le réduire aux statistiques seulement alors.
EngrStudent