L'inspiration pour cette question vient de l'article bien connu du regretté Leo-Breiman, Statistical Modeling: The Two Cultures (disponible en libre accès). L'auteur compare ce qu'il considère comme deux approches disparates de l'analyse des données, en abordant les idées clés de la statistique classique et de l'apprentissage automatique. Cependant, l'article est intelligible pour un large public - sans doute pour quiconque travaille avec des données, qu'il ait poursuivi des statistiques au niveau du doctorat ou qu'il n'ait suivi qu'un cours d'introduction. De plus, l'article est stimulant . Autrement dit, il génère facilement des discussions (comme en témoigne la série de commentaires animés publiés dans le même numéro).
Je suis curieux de découvrir plus d'articles avec ces qualités. Autrement dit, des articles qui:
- Toucher les concepts fondamentaux de la statistique / analyse de données
- Peut être compris par un large public en termes de variation dans la recherche et la formation statistique formelle
- Stimuler la discussion, que ce soit par la perspicacité ou la controverse
la source
Réponses:
Shmueli, Galit. "Pour expliquer ou prédire?." Science statistique (2010): 289-310.
Je pense que cela correspond à vos trois points.
Il parle de modélisation explicative et prédictive (les termes doivent être explicites) et note que les différences entre eux ne sont souvent pas reconnues.
Cela soulève le point que selon l'objectif de la modélisation (explicatif ou prédictif), différentes stratégies de construction de modèles pourraient être utilisées et différents modèles pourraient être sélectionnés comme «le meilleur» modèle.
C'est un document assez complet et d'une lecture agréable. Une discussion à ce sujet est résumée dans le billet de blog de Rob J. Hyndman . Une discussion connexe sur la validation croisée est dans ce fil (avec beaucoup de votes positifs). Une autre question (sans réponse) sur le même sujet est la suivante .
la source
Elle n'est pas connue de beaucoup mais lorsque les géants de la profession étaient encore parmi nous, ils ne s'entendaient pas bien. Le débat sur les fondements du test d'hypothèse en particulier, qu'il soit inductif ou déductif, a vu des insultes assez sérieuses voler entre Fisher d'une part et Neyman-Pearson d'autre part. Et le problème n'a jamais été résolu de leur vivant.
Bien après qu'ils soient tous passés, Lehmann essaie de combler le fossé et, à mon avis, fait du bon travail car il montre que les approches sont complémentaires plutôt que s'excluent mutuellement. C'est d'ailleurs ce que les élèves apprennent de nos jours. Vous devez connaître quelques éléments de base sur le test d'hypothèse, mais vous pouvez sinon suivre le document sans aucun problème.
la source
Wilk, MB et Gnanadesikan, R. 1968. Méthodes de traçage de probabilité pour l'analyse des données. Biometrika 55: 1-17. Lien Jstor si vous y avez accès
Cet article a presque 50 ans au moment où j'écris, mais se sent toujours frais et innovant. En utilisant une riche variété d'exemples intéressants et substantiels, les auteurs unifient et développent une variété d'idées pour tracer et comparer des distributions en utilisant le cadre des tracés QQ (quantile-quantile) et PP (probabilité-probabilité). Ici, les distributions désignent globalement tous les ensembles de données ou de nombres (résidus, contrastes, etc., etc.) résultant de leurs analyses.
Des versions particulières de ces graphiques remontent à plusieurs décennies, le plus évidemment des graphiques de probabilité normale ou de scores normaux. qui sont en ces termes des diagrammes quantile-quantile, à savoir des graphiques des quantiles observés par rapport aux quantiles attendus ou théoriques à partir d'un échantillon de la même taille à partir d'une distribution normale (gaussienne). Mais les auteurs montrent, modestement mais avec confiance, que les mêmes idées peuvent être étendues facilement - et pratiquement avec l'informatique moderne - pour examiner d'autres types de quantiles et tracer automatiquement les résultats.
Les auteurs, alors tous deux chez Bell Telephone Laboratories, bénéficiaient d'installations informatiques de pointe, et même de nombreuses universités et instituts de recherche ont mis une dizaine d'années à se rattraper. Même maintenant, les idées contenues dans cet article méritent une application plus large qu'elles n'en ont. Il s'agit d'un texte ou d'un cours d'introduction rare qui inclut l'une de ces idées autres que l'intrigue QQ normale. Les histogrammes et les diagrammes en boîte (chacun souvent très utile, mais néanmoins chacun maladroit et limité de plusieurs manières) continuent d'être les principaux agrafes lorsque des graphiques de distribution sont introduits.
Sur le plan personnel, même si les idées principales de cet article ont été familières pendant la majeure partie de ma carrière, j'aime le relire tous les deux ans environ. Une bonne raison est le plaisir de voir comment les auteurs donnent des idées simples mais puissantes à bon escient avec des exemples sérieux. Une autre bonne raison est la façon dont le document, qui est rédigé de manière concise, sans la moindre trace de bombe, fait allusion à des extensions des idées principales. Plus d'une fois, j'ai redécouvert des rebondissements sur les principales idées couvertes explicitement dans les astuces et autres commentaires.
Ce n'est pas seulement un document pour ceux qui s'intéressent particulièrement aux graphiques statistiques, bien qu'à mon avis, cela devrait inclure tous ceux qui s'intéressent aux statistiques de toute nature. Il favorise des façons de penser les distributions qui sont pratiquement utiles pour développer les compétences et les connaissances statistiques de quiconque.
la source
Ioannidis, John PA "Pourquoi la plupart des résultats de recherche publiés sont faux." PLoS Medicine (2005)
Ioannidis, John PA "Comment rendre plus vraie la recherche publiée." PLoS Medicine (2014)
Doit lire pour chaque chercheur / statisticien / analyste qui veut éviter les dangers d'une mauvaise utilisation et mauvaise interprétation des statistiques dans la recherche. L'article de 2005 a été le plus consulté de l'histoire de la Public Library of Science, et il a suscité beaucoup de controverses et de discussions.
la source
Tukey, JW (1960) Conclusions vs décisions Technometrics 2 (4): 423-433
Ce document est basé sur un discours après le dîner par Tukey et il y a un commentaire qui dit qu'une «discussion considérable s'est ensuivie» donc il correspond au moins au tiers de vos points.
J'ai lu cet article pour la première fois alors que je terminais un doctorat en génie et j'ai apprécié son exploration des aspects pratiques de l'analyse des données.
la source
Efron et Morris, 1977, Stein's Paradox in Statistics .
Efron et Morris ont écrit une série d'articles techniques sur l'estimateur James-Stein dans les années 1970, encadrant le «paradoxe» de Stein dans le contexte empirique des Bayes. Le document de 1977 est un article populaire publié dans Scientific American .
C'est une excellente lecture.
la source
Eh bien, malgré le plus grand intérêt pour Roy Model chez les économistes (mais je peux me tromper), son article original "Quelques réflexions sur la répartition des gains" de 1951, est une discussion perspicace et non technique sur le problème d'auto-sélection. Cet article a servi d'inspiration pour les modèles de sélection développés par le prix Nobel James Heckman. Bien que vieux, je pense qu'il correspond à vos trois points.
la source