Je suis à la recherche de statistiques (et de probabilités, je suppose) pour les questions d’entrevue, des plus élémentaires aux plus avancées. Les réponses ne sont pas nécessaires (bien que des liens vers des questions spécifiques sur ce site feraient bien).
65
Réponses:
Je ne sais pas quel est le travail, mais je pense qu'expliquer x à un novice serait probablement bien.
a) parce qu'ils auront probablement besoin de le faire dans leur travail
b) c'est un bon test de compréhension, je pense.
la source
La norme Q où je travaille va dans le sens de:
la source
Vous voudrez peut-être aussi vous demander si l'entretien est le meilleur moyen de mesurer le concept d'intérêt. Si vous souhaitez mesurer les connaissances préalables sur les probabilités ou les statistiques, vous feriez mieux de vous fier davantage à un test écrit. Vous pouvez poser plus de questions et augmenter ainsi la fiabilité de la mesure. C'est plus standardisé à la fois dans l'administration et dans la notation. Et une fois l’instrument mis au point, il utilise probablement moins de ressources à administrer.
Vous pouvez ensuite utiliser l'entrevue comme un outil plus ciblé sur des facteurs tels que les compétences verbales et interpersonnelles.
la source
Deux questions m'ont été posées:
1) Vous vous adaptez à une régression multiple pour examiner l’effet d’une variable particulière qui intéresse un ouvrier d’un autre service. La variable revient insignifiante, mais votre collègue dit que cela est impossible car elle est réputée avoir un effet. Que dirais-tu / ferais-tu?
2) Vous avez 1000 variables et 100 observations. Vous souhaitez trouver les variables significatives pour une réponse particulière. Qu'est-ce que tu ferais?
la source
Peuvent-ils traiter avec des données du monde réel?
la source
Beaucoup de questions / réponses sur ce site pourraient donner des idées pour de bonnes questions. Je vais vous donner une liste avec des liens de ce type que je pense être bons. Les messages pour lesquels j'ai répondu sont surreprésentés, car je les connais mieux, pas parce qu'ils sont nécessairement les meilleurs! Je donne de brefs commentaires à chaque lien afin que vous puissiez décider si vous souhaitez suivre le lien.
Quelle est l'intuition derrière SVD? "Pouvez-vous expliquer à l'un de nos clients comment fonctionne le SVD?"
Estimation du maximum de vraisemblance (MLE) en termes simples "Pouvez-vous expliquer en langage non technique l'idée de l'estimation du maximum de vraisemblance?"
Taleb et le cygne noir "Dites-moi, qu'est-ce qu'un cygne noir, et pourquoi est-ce pertinent? Quand est-il pertinent?"
Inférence statistique lorsque l'échantillon "est" la population "Que pouvez-vous dire de l'inférence statistique lorsque l'échantillon est constitué de la population entière?"
Qualité de l'ajustement et modèle de choix de la régression linéaire ou de Poisson "Nous avons un problème de régression dans lequel la réponse est une variable de comptage. Que choisiriez-vous dans ce contexte, les moindres carrés ordinaires ou la régression de Poisson (ou peut-être une autre)? Expliquez votre choix , quelles sont les principales différences entre ces modèles? "
Quelle est la différence entre variance finie et variance infinie "Pouvez-vous expliquer, dans un langage aussi simple que possible, ce que signifie pour une variable aléatoire une espérance infinie ou une variance infinie? Quelle est l’importance pratique de cette distinction? Expliquez avec un exemple."
Quelles sont les alternatives modernes et facilement utilisables à la régression pas à pas? "Comment construiriez-vous un modèle de régression complexe lorsqu'il existe de nombreuses variables prédictives possibles? Décrivez les différentes stratégies possibles et décrivez les problèmes qui se posent avec chacune d'elles"
Comment gérer la séparation parfaite dans la régression logistique? "Quel est le problème de la séparation dans la régression logistique, ses causes, ses symptômes? Que pouvez-vous faire pour le résoudre, si c'est vraiment un problème?"
Pourquoi la matrice de corrélation doit-elle être positive semi-définie et que signifie-t-elle être ou ne pas être positive semi-définie? et
Que me dit une matrice de covariance définie non positive sur mes données? "Expliquez pourquoi une matrice de covariance doit être positive (semi) définie et ce que cela signifie. Comment utiliser ce fait?"
Quelles sont les versions multidimensionnelles de la médiane "Pouvez-vous proposer un moyen de généraliser la médiane aux données multivariées?"
Interprétation des termes d'interaction dans la régression logit avec des variables catégorielles et Quelles sont les meilleures pratiques d'identification des effets d'interaction? et Deux effets principaux négatifs et un effet d’interaction positif? et Inclure l'interaction mais pas les effets principaux dans un modèle et Comment interpréter les effets principaux lorsque l'effet d'interaction n'est pas significatif? "Expliquez ce que l'on entend par interaction dans les modèles de régression. Plus précisément, qu'est-ce que cela signifie si l'interaction est significative alors que les effets principaux ne le sont pas? Existe-t-il une différence d'interprétation de l'interaction entre régression linéaire ordinaire et régression logistique?"
Quelle pourrait être la raison d'utiliser la transformation de racine carrée sur les données? et Transformation de données appropriée "Quand, comment et pourquoi transformez-vous la variable de réponse en un modèle de régression (ou ANOVA)? Existe-t-il des alternatives?
Puis-je faire confiance aux résultats de l'ANOVA pour une DV non distribuée normalement? "Comment traiteriez-vous une ANOVA avec des résidus non normaux?
Pourquoi les statistiques sont-elles utiles quand beaucoup de choses qui importent sont des choses à un coup?
Comment modéliser efficacement la somme des variables aléatoires de Bernoulli?
Quand utiliser les équations d'estimation généralisées par rapport aux modèles à effets mixtes?
Que se passe-t-il ici lorsque j'utilise la perte au carré dans la régression logistique? "Pourquoi utilisons-nous la probabilité maximale pour la régression logistique? Pourquoi pas les moindres carrés?"
la source
On m'a demandé une fois comment j'expliquerais la pertinence du théorème de la limite centrale à une classe d'étudiants de première année en sciences sociales qui connaissent à peine la statistique.
la source
Exemple, "Extraction automatique de fonctionnalités pour classer les données audio"
Justification: peuvent-ils comprendre comment analyser quelque chose de statistique qui ne se trouve pas déjà dans un grand tableau?
la source
Bonne réponse: validation croisée
la source
Je demande souvent "comment définiriez-vous / expliqueriez-vous ce qu'est une prévision?"
La réponse à ce type de question très générale m'aide à voir si les gens sont connectés à un cas particulier de prévision. Il n’ya pas de bonne réponse, mais répondre synthétiquement à une interview n’est pas toujours facile :)
la source
Pour un contexte de données d'observation:
Considérez ce modèle de régression appliqué à ce problème de fond. Qu'est-ce qui peut éventuellement être interprété de manière causale? [Approfondir] Que devez-vous apprendre pour changer votre opinion?
la source
Comment comptez-vous le nombre d'arbres de santal à Bangalore?
la source
Sous la rubrique Causation vs corrélation :
Il est courant d'utiliser l'engagement client / utilisateur comme fonctionnalités d'un modèle prédictif. Par exemple, les personnes qui cliquent sur ce bouton sont plus susceptibles de s'abonner que les autres. Les personnes qui magasinent le lundi sont plus susceptibles de magasiner que celles qui magasinent le mardi.
Si nous prenons cela à l'extrême: les utilisateurs qui cliquent sur «acheter» sont plus susceptibles d'acheter un produit que ceux qui ne cliquent pas sur achat.
Mais évidemment, ce n'est pas très utile pour expliquer pourquoi certains utilisateurs s'abonnent et d'autres non.
Comment procéderiez-vous pour équilibrer les fonctionnalités des clients, ce qui expliquerait pourquoi ils s'abonnent par rapport à ceux qui sont fortement corrélés avec les abonnements, mais qui sont nécessaires pour accomplir la tâche?
la source
Peuvent-ils expliquer le fonctionnement des statistiques dans le monde physique?
la source
Nous gérons un centre de service à la clientèle. Nous recevons 1 million d'appels par mois. Comment pouvons-nous le réduire à dix mille?
la source
Beaucoup de questions que nous posons sont similaires à celles qui ont déjà été décrites. Mais certains de ceux que je n'ai pas encore lus et qui sont utilisés: on vous demandera peut-être de dessiner un programme sur un tableau blanc pour faire quelque chose du genre: simuler un roulement de dés ou un autre problème de probabilité, ou calculer une série de nombres premiers les nombres premiers inférieurs à 1 000 000) - vous pouvez le faire dans la langue de votre choix, mais la plupart des gens choisissent R, et certains choisissent Python (je crois), mais je suppose que vous pourriez choisir Stata, SAS, SPSS , Matlab, etc. On vous posera probablement des questions pour approfondir vos connaissances sur le langage de programmation de votre choix - pourquoi, par exemple, utilisez apply au lieu d’une boucle for en R.
On vous demandera peut-être également de concevoir une expérience ou une autre étude pour enquêter sur quelque chose - généralement quelque chose de concret - qui sera parfois lié au travail que nous faisons, mais souvent pas. (Vous n'êtes pas censé connaître le travail que nous effectuons, mais vous devriez être capable de saisir l'essentiel d'un problème dont vous n'avez pas entendu parler et de le spéculer intelligemment, même si vous connaissiez certaines connaissances du domaine. c'était faux - ce n'est pas grave, vous n'êtes pas censé avoir une connaissance du domaine). On vous demandera peut-être de prendre en compte des facteurs tels que le pouvoir.
la source
Lors de l'analyse de la variance d'une variable quantitative, nous avons parfois constaté que la fréquence de la variable était très élevée (> 5), puis nous avons utilisé le test exact de Fisher pour rechercher l'indépendance de la variable.
la source
L’assistance moyenne payée aux matchs des Yankees l’an dernier était de 55 000 personnes. Vous demandez au hasard à un groupe de personnes à New York si elles sont allées à un match des Yankees la saison dernière, et si elles l'ont fait, vous enregistrez la participation payée. Quelle est la participation moyenne payée pour les jeux auxquels ont assisté les personnes à qui vous avez demandé d'aller à un jeu?
Je vais vous donner un indice pour ma réponse (l'indice n'a pas été fourni): échantillonnage biaisé en longueur. J'ai marqué un but sur ce terrain, mais ce n'était pas suffisant pour gagner le match, ha, ha. Remarque: j'ai mentionné de nombreuses mises en garde concernant la manière dont l'échantillonnage a été effectué et l'intervieweur m'a dit de ne pas en tenir compte.
la source