Franchement, je ne pense pas que la loi des grands nombres ait un rôle énorme dans l'industrie. Il est utile de comprendre les justifications asymptotiques des procédures courantes, telles que les estimations et les tests du maximum de vraisemblance (y compris les GLM omniimportants et la régression logistique, en particulier), le bootstrap, mais ce sont des problèmes de distribution plutôt que de probabilité de toucher un mauvais échantillon. .
Au-delà des sujets déjà mentionnés (GLM, inférence, bootstrap), le modèle statistique le plus courant est la régression linéaire, donc une compréhension approfondie du modèle linéaire est indispensable. Il est possible que vous ne dirigiez jamais l'ANOVA dans votre vie industrielle, mais si vous ne la comprenez pas, vous ne devriez pas être appelé statisticien.
Il existe différents types d'industries. En pharmacie, vous ne pouvez pas gagner votre vie sans essais randomisés et régression logistique. Dans les statistiques d'enquête, vous ne pouvez pas gagner votre vie sans l'estimateur de Horvitz-Thompson et les ajustements de non-réponse. Dans les statistiques liées à l'informatique, vous ne pouvez pas gagner votre vie sans apprentissage statistique et exploration de données. Dans les groupes de réflexion sur les politiques publiques (et, de plus en plus, les statistiques de l'éducation), vous ne pouvez pas gagner votre vie sans estimateurs de causalité et d'effet de traitement (qui impliquent de plus en plus d'essais randomisés). Dans la recherche marketing, vous devez avoir un mélange de connaissances économiques avec la théorie de la mesure psychométrique (et vous ne pouvez apprendre ni l'un ni l'autre dans un service de statistiques typique). Les statistiques industrielles fonctionnent avec leurs propres paradigmes particuliers à six sigma qui ne sont connectés qu'à distance aux statistiques traditionnelles; une liaison plus forte peut être trouvée dans la conception de matériel d'expériences. Le matériel de Wall Street serait l'économétrie financière, jusqu'au calcul stochastique. Ce sont des compétences TRÈS disparates, et le terme «industrie» est encore plus mal défini que «université». Je ne pense pas que quiconque puisse prétendre en savoir plus de deux ou trois de ce qui précède en même temps.
Cependant, les compétences de haut niveau qui seraient universellement requises dans "l'industrie" (quoi que cela puisse signifier pour vous) seraient la gestion du temps, la gestion de projet et la communication avec des clients moins avertis statistiquement. Donc, si vous voulez vous préparer au placement dans l'industrie, suivez des cours en école de commerce sur ces sujets.
MISE À JOUR: Le message original a été écrit en février 2012; ces jours-ci (mars 2014), vous devriez probablement vous appeler "un scientifique des données" plutôt qu'un "statisticien" pour trouver un travail à chaud dans l'industrie ... et mieux apprendre quelques Hadoop à suivre avec cette auto-proclamation.
Je pense avoir une bonne compréhension des problèmes liés au compromis biais-variance . La plupart des statisticiens finiront, à un moment donné, par analyser un ensemble de données suffisamment petit pour que la variance d'un estimateur ou les paramètres du modèle soient suffisamment élevés pour que le biais soit une considération secondaire.
la source
Pour souligner le super évident:
Théorème de la limite centrale
car il permet aux praticiens d'approximer les valeurs de dans de nombreuses situations où l'obtention de valeurs de exactes est intraitable. Dans le même ordre d'idées, tout praticien qui réussit serait bien servi pour se familiariser, en général, avecp p
Bootstrapping
la source
Je ne dirais pas que cela est très similaire à quelque chose comme la loi des grands nombres ou le théorème de la limite centrale, mais parce que faire des inférences sur la causalité est souvent central, comprendre le travail de Judea Pearl sur l'utilisation de graphiques structurés pour modéliser la causalité est quelque chose que les gens devraient connaître. avec. Il fournit un moyen de comprendre pourquoi les études expérimentales et observationnelles diffèrent en ce qui concerne les inférences causales qu'elles offrent, et offre des moyens de traiter les données d'observation. Pour un bon aperçu, son livre est ici .
la source
Une bonne compréhension du problème de fond à traiter est aussi importante que toute approche statistique particulière. Un bon scientifique de l'industrie est plus susceptible qu'un statisticien sans ces connaissances de trouver une solution raisonnable à son problème. Un statisticien possédant des connaissances approfondies peut vous aider.
la source
La méthode Delta, comment calculer la variance de statistiques bizarres et trouver leur efficacité relative asymptotique, pour recommander des changements de variable et expliquer les gains d'efficacité en "estimant la bonne chose". En conjonction avec cela, l'inégalité de Jensen pour comprendre les GLM et les types étranges de biais qui surviennent dans les transformations comme ci-dessus. Et, maintenant que le biais et la variance sont mentionnés, le concept de compromis biais-variance et MSE en tant que mesure objective de la précision prédictive.
la source
À mon avis, l'inférence statistique est la plus importante pour un praticien. L'inférence comporte deux parties: 1) estimation et 2) test d'hypothèse. Le test d'hypothèse est important. Étant donné que, dans l'estimation, il s'agit principalement d'une procédure unique, l'estimation du maximum de vraisemblance a été suivie et la plupart des statistiques sont disponibles (il n'y a donc pas de confusion).
Les questions fréquentes des praticiens portent sur des tests importants de l'analyse des différences ou des causes. Des tests d'hypothèses importants peuvent être trouvés dans ce lien .
Connaître les modèles linéaires, GLM ou en général la modélisation statistique est nécessaire pour l'interprétation de la causalité. Je suppose que l'avenir de l'analyse des données inclura l'inférence bayésienne.
la source
L'inférence occasionnelle est indispensable. Et comment résoudre ce problème fondamental, vous ne pouvez pas remonter dans le temps et ne pas donner de traitement à quelqu'un. Lisez des articles sur Rubin, Fisher, le fondateur d'un étudiant en statistiques modernes.) .... Ce qu'il faut apprendre pour résoudre ce problème, la randomisation appropriée et comment la loi des grands nombres dit que les choses sont correctement randomisées, test d'hypothèse, résultats potentiels (tient contre l'hypothèse d'hétroscastistie et c'est génial avec le manque), l'appariement (idéal pour le manque mais les résultats potentiels sont meilleurs parce que c'est plus généralisé, je veux dire pourquoi apprendre une tonne de choses compliquées quand on ne peut apprendre qu'une chose compliquée), Bootstrap, statistiques bayésiennes bien sûr (régression bayésienne , régression bayésienne naïve, facteurs bayésiens) et alternatives non papétriques.
Normalement, dans la pratique, il suffit de suivre ces étapes générales,
En ce qui concerne un commentaire précédent, vous devez généralement commencer par une ANOVA (effets aléatoires ou effets fixes et transformer les types continus en bacs), puis utiliser une régression (qui si vous transformez et modifiez peut parfois être aussi bonne qu'une ANOVA mais ne la battez jamais) pour voir quels traitements spécifiques sont significatifs (opposé à faire plusieurs tests t et à utiliser une correction comme Holm methid), utilisez une régression.
Dans les cas où vous devez prévoir les choses, utilisez la régression bayasienne.
Le manque à plus de 5% utilise les résultats potentiels
Une autre branche de l'analyse de données est l'apprentissage automatique supervisé qui doit être mentionné
la source