Recommandations pour des articles non techniques mais approfondis en statistiques

24

L'inspiration pour cette question vient de l'article bien connu du regretté Leo-Breiman, Statistical Modeling: The Two Cultures (disponible en libre accès). L'auteur compare ce qu'il considère comme deux approches disparates de l'analyse des données, en abordant les idées clés de la statistique classique et de l'apprentissage automatique. Cependant, l'article est intelligible pour un large public - sans doute pour quiconque travaille avec des données, qu'il ait poursuivi des statistiques au niveau du doctorat ou qu'il n'ait suivi qu'un cours d'introduction. De plus, l'article est stimulant . Autrement dit, il génère facilement des discussions (comme en témoigne la série de commentaires animés publiés dans le même numéro).

Je suis curieux de découvrir plus d'articles avec ces qualités. Autrement dit, des articles qui:

  • Toucher les concepts fondamentaux de la statistique / analyse de données
  • Peut être compris par un large public en termes de variation dans la recherche et la formation statistique formelle
  • Stimuler la discussion, que ce soit par la perspicacité ou la controverse
Richard Border
la source
2
Jusqu'à présent, les réponses ont été très intéressantes! Laissez-les venir. Bien sûr, je n'accepterai aucune des réponses selon meta.stats.stackexchange.com/questions/409/…
Richard Border
2
Il n'y a pas de route royale vers les statistiques.
Aksakal

Réponses:

15

Shmueli, Galit. "Pour expliquer ou prédire?." Science statistique (2010): 289-310.

Je pense que cela correspond à vos trois points.

Il parle de modélisation explicative et prédictive (les termes doivent être explicites) et note que les différences entre eux ne sont souvent pas reconnues.

Cela soulève le point que selon l'objectif de la modélisation (explicatif ou prédictif), différentes stratégies de construction de modèles pourraient être utilisées et différents modèles pourraient être sélectionnés comme «le meilleur» modèle.

C'est un document assez complet et d'une lecture agréable. Une discussion à ce sujet est résumée dans le billet de blog de Rob J. Hyndman . Une discussion connexe sur la validation croisée est dans ce fil (avec beaucoup de votes positifs). Une autre question (sans réponse) sur le même sujet est la suivante .

Richard Hardy
la source
12

Lehmann, Erich L. "Les théories de Fisher, Neyman-Pearson sur la vérification des hypothèses: une théorie ou deux ?." Journal de l'American Statistical Association 88.424 (1993): 1242-1249.

Elle n'est pas connue de beaucoup mais lorsque les géants de la profession étaient encore parmi nous, ils ne s'entendaient pas bien. Le débat sur les fondements du test d'hypothèse en particulier, qu'il soit inductif ou déductif, a vu des insultes assez sérieuses voler entre Fisher d'une part et Neyman-Pearson d'autre part. Et le problème n'a jamais été résolu de leur vivant.

Bien après qu'ils soient tous passés, Lehmann essaie de combler le fossé et, à mon avis, fait du bon travail car il montre que les approches sont complémentaires plutôt que s'excluent mutuellement. C'est d'ailleurs ce que les élèves apprennent de nos jours. Vous devez connaître quelques éléments de base sur le test d'hypothèse, mais vous pouvez sinon suivre le document sans aucun problème.

JohnK
la source
1
Merci pour la citation. J'ai posé une fois une question sur le conflit présumé entre les approches F et NP: stats.stackexchange.com/questions/112769 , et malgré beaucoup d'attention et de votes positifs qu'il a reçus, je ne suis toujours pas convaincu par les réponses existantes (et je n'ai pas accepter tout). J'ai l'intention de revenir sur ce fil et de lire / mettre une prime ou quelque chose, mais ne trouve jamais le temps; si vous connaissez l'article de Lehmann, je vous encourage à y apporter une réponse.
amibe dit Réintégrer Monica le
@amoeba J'ai lu le papier de Lehmann encore et encore, il est très lisible mais je ne pense pas avoir fait des recherches aussi approfondies que vous. Donc, chaque fois que vous avez le temps, ce serait une bonne idée de le parcourir et de voir son point de vue. Vous trouverez la discussion du problème de Behrens-Fisher particulièrement révélatrice.
JohnK
Merci d'avoir partagé. Peut-être que tout ce que j'ai entendu a été plutôt unilatéral, mais tout ce que j'ai entendu à propos de Sir Ron Fisher est qu'il était un homme plutôt désagréable à traiter, c'est le moins qu'on puisse dire. Il avait également des opinions douteuses sur le lien entre l'usage du tabac et le cancer du poumon .
Phil
Une alternative "plus légère" à l'article est Christensen, Ronald. "Test de Fisher, Neyman, Pearson et Bayes." The American Statistician 59.2 (2005): 121-126. Je l'ai trouvé agréable.
Richard Hardy
9

Wilk, MB et Gnanadesikan, R. 1968. Méthodes de traçage de probabilité pour l'analyse des données. Biometrika 55: 1-17. Lien Jstor si vous y avez accès

Cet article a presque 50 ans au moment où j'écris, mais se sent toujours frais et innovant. En utilisant une riche variété d'exemples intéressants et substantiels, les auteurs unifient et développent une variété d'idées pour tracer et comparer des distributions en utilisant le cadre des tracés QQ (quantile-quantile) et PP (probabilité-probabilité). Ici, les distributions désignent globalement tous les ensembles de données ou de nombres (résidus, contrastes, etc., etc.) résultant de leurs analyses.

Des versions particulières de ces graphiques remontent à plusieurs décennies, le plus évidemment des graphiques de probabilité normale ou de scores normaux. qui sont en ces termes des diagrammes quantile-quantile, à savoir des graphiques des quantiles observés par rapport aux quantiles attendus ou théoriques à partir d'un échantillon de la même taille à partir d'une distribution normale (gaussienne). Mais les auteurs montrent, modestement mais avec confiance, que les mêmes idées peuvent être étendues facilement - et pratiquement avec l'informatique moderne - pour examiner d'autres types de quantiles et tracer automatiquement les résultats.

Les auteurs, alors tous deux chez Bell Telephone Laboratories, bénéficiaient d'installations informatiques de pointe, et même de nombreuses universités et instituts de recherche ont mis une dizaine d'années à se rattraper. Même maintenant, les idées contenues dans cet article méritent une application plus large qu'elles n'en ont. Il s'agit d'un texte ou d'un cours d'introduction rare qui inclut l'une de ces idées autres que l'intrigue QQ normale. Les histogrammes et les diagrammes en boîte (chacun souvent très utile, mais néanmoins chacun maladroit et limité de plusieurs manières) continuent d'être les principaux agrafes lorsque des graphiques de distribution sont introduits.

Sur le plan personnel, même si les idées principales de cet article ont été familières pendant la majeure partie de ma carrière, j'aime le relire tous les deux ans environ. Une bonne raison est le plaisir de voir comment les auteurs donnent des idées simples mais puissantes à bon escient avec des exemples sérieux. Une autre bonne raison est la façon dont le document, qui est rédigé de manière concise, sans la moindre trace de bombe, fait allusion à des extensions des idées principales. Plus d'une fois, j'ai redécouvert des rebondissements sur les principales idées couvertes explicitement dans les astuces et autres commentaires.

Ce n'est pas seulement un document pour ceux qui s'intéressent particulièrement aux graphiques statistiques, bien qu'à mon avis, cela devrait inclure tous ceux qui s'intéressent aux statistiques de toute nature. Il favorise des façons de penser les distributions qui sont pratiquement utiles pour développer les compétences et les connaissances statistiques de quiconque.

Nick Cox
la source
2
C'est un excellent choix. J'ai lu cela plusieurs fois - dès que j'ai vu les noms des auteurs dans votre réponse, j'ai su de quel papier il s'agissait, et j'ai tout de suite voulu le relire. Je pense que j'en ai une copie ici quelque part ...
Glen_b -Reinstate Monica
6

Ioannidis, John PA "Pourquoi la plupart des résultats de recherche publiés sont faux." PLoS Medicine (2005)

Ioannidis, John PA "Comment rendre plus vraie la recherche publiée." PLoS Medicine (2014)

Doit lire pour chaque chercheur / statisticien / analyste qui veut éviter les dangers d'une mauvaise utilisation et mauvaise interprétation des statistiques dans la recherche. L'article de 2005 a été le plus consulté de l'histoire de la Public Library of Science, et il a suscité beaucoup de controverses et de discussions.

LindsayL
la source
6

Tukey, JW (1960) Conclusions vs décisions Technometrics 2 (4): 423-433

Ce document est basé sur un discours après le dîner par Tukey et il y a un commentaire qui dit qu'une «discussion considérable s'est ensuivie» donc il correspond au moins au tiers de vos points.

J'ai lu cet article pour la première fois alors que je terminais un doctorat en génie et j'ai apprécié son exploration des aspects pratiques de l'analyse des données.

Tony Ladson
la source
Le lien ne fonctionne pas. Cela fonctionne
kjetil b halvorsen
5

Efron et Morris, 1977, Stein's Paradox in Statistics .

Efron et Morris ont écrit une série d'articles techniques sur l'estimateur James-Stein dans les années 1970, encadrant le «paradoxe» de Stein dans le contexte empirique des Bayes. Le document de 1977 est un article populaire publié dans Scientific American .

C'est une excellente lecture.

amibe dit réintégrer Monica
la source
3

Eh bien, malgré le plus grand intérêt pour Roy Model chez les économistes (mais je peux me tromper), son article original "Quelques réflexions sur la répartition des gains" de 1951, est une discussion perspicace et non technique sur le problème d'auto-sélection. Cet article a servi d'inspiration pour les modèles de sélection développés par le prix Nobel James Heckman. Bien que vieux, je pense qu'il correspond à vos trois points.

Rodrigo Remedio
la source