Questions d'entrevue statistique

65

Je suis à la recherche de statistiques (et de probabilités, je suppose) pour les questions d’entrevue, des plus élémentaires aux plus avancées. Les réponses ne sont pas nécessaires (bien que des liens vers des questions spécifiques sur ce site feraient bien).

shabbychef
la source
Ce serait très intéressant si quelqu'un pouvait donner des exemples qu'il se donnait lui-même lorsqu'il était interrogé ...
kjetil b halvorsen

Réponses:

40

Je ne sais pas quel est le travail, mais je pense qu'expliquer x à un novice serait probablement bien.

a) parce qu'ils auront probablement besoin de le faire dans leur travail

b) c'est un bon test de compréhension, je pense.

Chris Beeley
la source
8
(+1): Je ne peux pas compter le nombre de fois où j'ai cru comprendre quelque chose, mais je n'ai pas réussi à l'expliquer à quelqu'un d'autre avec des mots simples. Exemple: valeur de p;)
steffen
6
"Si vous ne pouvez pas expliquer cela à un enfant de six ans, alors vous ne le comprenez probablement pas vous-même" - Albert Einstein. Peut-être pas si extrême, mais vous comprenez le point ... :)
JM n'est pas un statisticien
1
J'aime "Expliquer une valeur p", avec ou sans la partie "à un novice".
Shabbychef
c'est pourquoi la validation croisée est excellente. beaucoup de "profane" questions et réponses.
Neil McGuigan
Vraiment de bons conseils, que vous interviewiez ou non!
JMS
21

La norme Q où je travaille va dans le sens de:

Jetez un coup d’œil à cette sortie d’une régression logistique multiple à partir d’un logiciel statistique que vous déclarez avoir utilisé (de préférence celui que nous utilisons aussi). XXX est la variable indépendante d'intérêt principal. Comment interprétez-vous les résultats pour un collègue ayant une connaissance du sujet, mais aucune formation statistique formelle? (Si nécessaire, demander une interprétation distincte de l'estimation ponctuelle, IC, valeur p).

onestop
la source
15
Dans des contextes plus académiques, on peut également demander: 'jetez un coup d'œil à la sortie de ce modèle dans cet article que vous avez (co) écrit . Dis-moi ce que cela signifie. Des réponses décevantes sont alors fatales car il n’ya pas d’excuses inconnues, pourtant très communes.
conjugateprior
4
@conjugateprior Pas vrai. Tant qu'il y a au moins un co-auteur qui n'est pas présent, il s'agit du domaine du co-auteur non présent. L'utilisation principale de cette technique est lors de présentations à la conférence.
Mark L. Stone
18

Vous voudrez peut-être aussi vous demander si l'entretien est le meilleur moyen de mesurer le concept d'intérêt. Si vous souhaitez mesurer les connaissances préalables sur les probabilités ou les statistiques, vous feriez mieux de vous fier davantage à un test écrit. Vous pouvez poser plus de questions et augmenter ainsi la fiabilité de la mesure. C'est plus standardisé à la fois dans l'administration et dans la notation. Et une fois l’instrument mis au point, il utilise probablement moins de ressources à administrer.

Vous pouvez ensuite utiliser l'entrevue comme un outil plus ciblé sur des facteurs tels que les compétences verbales et interpersonnelles.

Jeromy Anglim
la source
1
C'est un bon point. J'ai constaté par le passé qu'il est très difficile de dire si un candidat donné fonctionnera, à moins que vous ayez déjà travaillé avec lui auparavant.
Shabbychef
15

Deux questions m'ont été posées:

1) Vous vous adaptez à une régression multiple pour examiner l’effet d’une variable particulière qui intéresse un ouvrier d’un autre service. La variable revient insignifiante, mais votre collègue dit que cela est impossible car elle est réputée avoir un effet. Que dirais-tu / ferais-tu?

2) Vous avez 1000 variables et 100 observations. Vous souhaitez trouver les variables significatives pour une réponse particulière. Qu'est-ce que tu ferais?

Glen
la source
Pourriez-vous poster les réponses aussi? Pour 1) je suppose, il pourrait y avoir quelques variables dépendantes causant le problème. Pour 2) j'irais probablement pour le test statistique χ² (chi-carré)
Rishi Dua
2
Il y a beaucoup de réponses raisonnables aux deux, voici mes réflexions rapides: 1) le modèle de régression est issu d'un échantillon, cet échantillon présente une variation aléatoire et le modèle n'est donc qu'une estimation et peut entraîner des erreurs de type 1 ou de type 2. Il pourrait également y avoir une forte colinéarité parmi les prédicteurs. Pour 2) c'est le gros problème P vs petit N. Il existe de nombreuses techniques pour gérer cette situation, telles que la réduction des dimensions et du lasso.
Glen
2) faire des ajustements univariés de variables et identifier celles qui sont les plus significatives pour réduire l'ensemble de variables
adam
11

Voici un gros ensemble de données. Quel est votre plan pour faire face aux valeurs aberrantes? Qu'en est-il des valeurs manquantes? Qu'en est-il des transformations?

Peuvent-ils traiter avec des données du monde réel?

Neil McGuigan
la source
Cher utilisateur anonyme, veuillez ne pas utiliser edit pour les commentaires (ce n'est pas pour vous, Neil).
10

Beaucoup de questions / réponses sur ce site pourraient donner des idées pour de bonnes questions. Je vais vous donner une liste avec des liens de ce type que je pense être bons. Les messages pour lesquels j'ai répondu sont surreprésentés, car je les connais mieux, pas parce qu'ils sont nécessairement les meilleurs! Je donne de brefs commentaires à chaque lien afin que vous puissiez décider si vous souhaitez suivre le lien.

Quelle est l'intuition derrière SVD? "Pouvez-vous expliquer à l'un de nos clients comment fonctionne le SVD?"

Estimation du maximum de vraisemblance (MLE) en termes simples "Pouvez-vous expliquer en langage non technique l'idée de l'estimation du maximum de vraisemblance?"

Taleb et le cygne noir "Dites-moi, qu'est-ce qu'un cygne noir, et pourquoi est-ce pertinent? Quand est-il pertinent?"

Inférence statistique lorsque l'échantillon "est" la population "Que pouvez-vous dire de l'inférence statistique lorsque l'échantillon est constitué de la population entière?"

Qualité de l'ajustement et modèle de choix de la régression linéaire ou de Poisson "Nous avons un problème de régression dans lequel la réponse est une variable de comptage. Que choisiriez-vous dans ce contexte, les moindres carrés ordinaires ou la régression de Poisson (ou peut-être une autre)? Expliquez votre choix , quelles sont les principales différences entre ces modèles? "

Quelle est la différence entre variance finie et variance infinie "Pouvez-vous expliquer, dans un langage aussi simple que possible, ce que signifie pour une variable aléatoire une espérance infinie ou une variance infinie? Quelle est l’importance pratique de cette distinction? Expliquez avec un exemple."

Quelles sont les alternatives modernes et facilement utilisables à la régression pas à pas? "Comment construiriez-vous un modèle de régression complexe lorsqu'il existe de nombreuses variables prédictives possibles? Décrivez les différentes stratégies possibles et décrivez les problèmes qui se posent avec chacune d'elles"

Comment gérer la séparation parfaite dans la régression logistique? "Quel est le problème de la séparation dans la régression logistique, ses causes, ses symptômes? Que pouvez-vous faire pour le résoudre, si c'est vraiment un problème?"

Pourquoi la matrice de corrélation doit-elle être positive semi-définie et que signifie-t-elle être ou ne pas être positive semi-définie? et
Que me dit une matrice de covariance définie non positive sur mes données? "Expliquez pourquoi une matrice de covariance doit être positive (semi) définie et ce que cela signifie. Comment utiliser ce fait?"

Quelles sont les versions multidimensionnelles de la médiane "Pouvez-vous proposer un moyen de généraliser la médiane aux données multivariées?"

Interprétation des termes d'interaction dans la régression logit avec des variables catégorielles et Quelles sont les meilleures pratiques d'identification des effets d'interaction? et Deux effets principaux négatifs et un effet d’interaction positif? et Inclure l'interaction mais pas les effets principaux dans un modèle et Comment interpréter les effets principaux lorsque l'effet d'interaction n'est pas significatif? "Expliquez ce que l'on entend par interaction dans les modèles de régression. Plus précisément, qu'est-ce que cela signifie si l'interaction est significative alors que les effets principaux ne le sont pas? Existe-t-il une différence d'interprétation de l'interaction entre régression linéaire ordinaire et régression logistique?"

Quelle pourrait être la raison d'utiliser la transformation de racine carrée sur les données? et Transformation de données appropriée "Quand, comment et pourquoi transformez-vous la variable de réponse en un modèle de régression (ou ANOVA)? Existe-t-il des alternatives?

Puis-je faire confiance aux résultats de l'ANOVA pour une DV non distribuée normalement? "Comment traiteriez-vous une ANOVA avec des résidus non normaux?

Pourquoi les statistiques sont-elles utiles quand beaucoup de choses qui importent sont des choses à un coup?

Comment modéliser efficacement la somme des variables aléatoires de Bernoulli?

Quand utiliser les équations d'estimation généralisées par rapport aux modèles à effets mixtes?

Que se passe-t-il ici lorsque j'utilise la perte au carré dans la régression logistique? "Pourquoi utilisons-nous la probabilité maximale pour la régression logistique? Pourquoi pas les moindres carrés?"

kjetil b halvorsen
la source
9

On m'a demandé une fois comment j'expliquerais la pertinence du théorème de la limite centrale à une classe d'étudiants de première année en sciences sociales qui connaissent à peine la statistique.

Wolfgang
la source
4
La pertinence du théorème de la limite centrale est de faire croire aux gens que tout est normal, alors que rien ne l’est. Et conduit donc à de nombreuses conclusions erronées.
Mark L. Stone
8

Comment évitez-vous les sur-ajustements lorsque vous créez un modèle statistique?

Bonne réponse: validation croisée

Neil McGuigan
la source
6

Je demande souvent "comment définiriez-vous / expliqueriez-vous ce qu'est une prévision?"

La réponse à ce type de question très générale m'aide à voir si les gens sont connectés à un cas particulier de prévision. Il n’ya pas de bonne réponse, mais répondre synthétiquement à une interview n’est pas toujours facile :)

robin girard
la source
5

Pour un contexte de données d'observation:

Considérez ce modèle de régression appliqué à ce problème de fond. Qu'est-ce qui peut éventuellement être interprété de manière causale? [Approfondir] Que devez-vous apprendre pour changer votre opinion?

conjuguéprior
la source
4

Comment comptez-vous le nombre d'arbres de santal à Bangalore?

utilisateur3153
la source
1
S'agit-il d'une sorte de question de Fermi ?
Thies Heidecke
2
Bonne question. J'ai utilisé une version de ceci en classe (arbres dans un parc). Ils ont l’idée de l’échantillonnage, mais ont tendance à oublier le besoin d’une définition opérationnelle: quand commence-t-on à l’appeler arbre?
zbicyclist
4

Sous la rubrique Causation vs corrélation :

Il est courant d'utiliser l'engagement client / utilisateur comme fonctionnalités d'un modèle prédictif. Par exemple, les personnes qui cliquent sur ce bouton sont plus susceptibles de s'abonner que les autres. Les personnes qui magasinent le lundi sont plus susceptibles de magasiner que celles qui magasinent le mardi.

Si nous prenons cela à l'extrême: les utilisateurs qui cliquent sur «acheter» sont plus susceptibles d'acheter un produit que ceux qui ne cliquent pas sur achat.

Mais évidemment, ce n'est pas très utile pour expliquer pourquoi certains utilisateurs s'abonnent et d'autres non.

Comment procéderiez-vous pour équilibrer les fonctionnalités des clients, ce qui expliquerait pourquoi ils s'abonnent par rapport à ceux qui sont fortement corrélés avec les abonnements, mais qui sont nécessaires pour accomplir la tâche?

Ilanman
la source
3

Voici un ensemble de TinkerToy . Montrez-moi comment la distance euclidienne fonctionne en trois dimensions. Montrez-moi maintenant comment fonctionne la régression multiple.

Peuvent-ils expliquer le fonctionnement des statistiques dans le monde physique?

Neil McGuigan
la source
1
NN
1
si vous voulez disperser deux variables avec 100 observations, vous n'avez besoin que de 2 dimensions, pas de 100 :), et ainsi de suite
Neil McGuigan
3

Nous gérons un centre de service à la clientèle. Nous recevons 1 million d'appels par mois. Comment pouvons-nous le réduire à dix mille?

utilisateur3153
la source
5
supprimer 99% de vos téléphones!
Shabbychef
5
Arrêtez de payer la facture de téléphone.
Glen
3
Engager des frais pour l'appel. (un numéro 900 aux États-Unis ...)
gWaldo
7
Cette question concerne la règle des 80-20. C'est une règle courante dans les affaires; par exemple, "80% de vos ventes proviennent de 20% de vos clients". Microsoft a noté qu'en résolvant les 20% de bogues les plus signalés, 80% des erreurs et des plantages seraient éliminés. Donc, cela signifierait mettre en place une FAQ pour identifier l'adresse de ces 20% des problèmes
Rishi Dua
3

Beaucoup de questions que nous posons sont similaires à celles qui ont déjà été décrites. Mais certains de ceux que je n'ai pas encore lus et qui sont utilisés: on vous demandera peut-être de dessiner un programme sur un tableau blanc pour faire quelque chose du genre: simuler un roulement de dés ou un autre problème de probabilité, ou calculer une série de nombres premiers les nombres premiers inférieurs à 1 000 000) - vous pouvez le faire dans la langue de votre choix, mais la plupart des gens choisissent R, et certains choisissent Python (je crois), mais je suppose que vous pourriez choisir Stata, SAS, SPSS , Matlab, etc. On vous posera probablement des questions pour approfondir vos connaissances sur le langage de programmation de votre choix - pourquoi, par exemple, utilisez apply au lieu d’une boucle for en R.

On vous demandera peut-être également de concevoir une expérience ou une autre étude pour enquêter sur quelque chose - généralement quelque chose de concret - qui sera parfois lié au travail que nous faisons, mais souvent pas. (Vous n'êtes pas censé connaître le travail que nous effectuons, mais vous devriez être capable de saisir l'essentiel d'un problème dont vous n'avez pas entendu parler et de le spéculer intelligemment, même si vous connaissiez certaines connaissances du domaine. c'était faux - ce n'est pas grave, vous n'êtes pas censé avoir une connaissance du domaine). On vous demandera peut-être de prendre en compte des facteurs tels que le pouvoir.

Jeremy Miles
la source
2

Lors de l'analyse de la variance d'une variable quantitative, nous avons parfois constaté que la fréquence de la variable était très élevée (> 5), puis nous avons utilisé le test exact de Fisher pour rechercher l'indépendance de la variable.

Mike Anderson
la source
Cela serait probablement compris dans la réponse de Chris.
JM n'est pas un statisticien
4
La bonne réponse à cette question consiste-t-elle à savoir qu’il existe une controverse sur le fait de savoir si les marginaux fixes ont un sens et à se faire une opinion éclairée sur le sujet?
Ben Bolker
1

L’assistance moyenne payée aux matchs des Yankees l’an dernier était de 55 000 personnes. Vous demandez au hasard à un groupe de personnes à New York si elles sont allées à un match des Yankees la saison dernière, et si elles l'ont fait, vous enregistrez la participation payée. Quelle est la participation moyenne payée pour les jeux auxquels ont assisté les personnes à qui vous avez demandé d'aller à un jeu?

Je vais vous donner un indice pour ma réponse (l'indice n'a pas été fourni): échantillonnage biaisé en longueur. J'ai marqué un but sur ce terrain, mais ce n'était pas suffisant pour gagner le match, ha, ha. Remarque: j'ai mentionné de nombreuses mises en garde concernant la manière dont l'échantillonnage a été effectué et l'intervieweur m'a dit de ne pas en tenir compte.

Mark L. Stone
la source