Je viens de regarder une conférence sur l'inférence statistique ("comparer les proportions et les moyens"), qui fait partie d'une introduction au cours en ligne de statistiques. Le matériel avait aussi peu de sens pour moi qu'il le fait toujours (maintenant, j'ai dû voir ce genre de choses des dizaines de fois, réparties au cours des trois dernières décennies).
Je recherche un livre sur les "Stats-101 de base" (estimation ponctuelle, estimation d'estimation, inférence statistique, test d'hypothèse, plan d'étude) qui prend au sérieux le problème de convaincre un lecteur sceptique ...
Ci-dessous, je donne quelques exemples du type de question que l'auteur que je recherche prendrait au sérieux et saurait aborder de manière convaincante.
Mais permettez-moi d'abord de prendre une minute pour souligner que dans ce post, je ne pose pas ces questions. Veuillez ne pas y répondre! Je les donne juste à titre d'exemples, et à titre de "test décisif" (pour le type d'auteur de recherche).
Si une "proportion" est simplement la moyenne d'une variable booléenne (c'est-à-dire qui ne prend que les valeurs 0 et 1), pourquoi enseigne-t-on différentes procédures pour faire de l'inférence statistique avec des "proportions" et des "moyens"?
Si la distribution normale est si robuste que l'hypothèse de normalité donne de bons résultats même dans les cas où ces données ne sont pas distribuées de façon tout à fait normale, et si la distribution t est si normale, pourquoi toute cette agitation à propos de l'utilisation de la distribution t au lieu de la Ordinaire?
Que sont exactement les «degrés de liberté» et pourquoi nous en préoccupons-nous?
Qu'est-ce que cela signifie de parler de la "vraie" valeur d'un paramètre, étant donné que nous n'utilisons que des distributions qui semblent similaires aux données?
Comment se fait-il que "l'analyse exploratoire des données" soit une bonne chose, alors que "l'espionnage des données" est une mauvaise chose?
Comme je l'ai dit, je suis découragé par l' attitude qu'implique la négligence de telles questions. Ce n'est pas la "position épistémologique" que je veux voir chez quelqu'un qui m'apprend quelque chose. Je recherche des auteurs qui respectent le scepticisme et la rationalité du lecteur, et qui savent les aborder (sans forcément aller dans des pages et des pages de formalismes et de détails techniques).
Je me rends compte que c'est un défi de taille, et peut-être surtout pour les statistiques. Par conséquent, je ne m'attends pas à ce que de nombreux auteurs y parviennent. Mais pour le moment, je me contenterais d'en trouver un seul .
Permettez-moi d'ajouter que je ne suis pas opposé aux mathématiques. Au contraire, j'adore les mathématiques. (Je suis à l'aise avec l'analyse [aka "calcul avancé"], l'algèbre linéaire, la théorie des probabilités, même la théorie des mesures de base.)
Cela dit, je m'intéresse actuellement aux statistiques "appliquées", "pratiques", "quotidiennes", "réelles" (par opposition aux subtilités théoriques). (Mais je ne veux pas non plus de livre de cuisine!)
FWIW, j'ai lu les premiers chapitres de l' analyse de données en utilisant la régression et les modèles multiniveaux / hiérarchiques de Gelman et Hill, et j'aime le ton des auteurs. Leur objectif est pratique, mais entrez dans la théorie en cas de besoin. Ils prennent également souvent du recul, évaluent les pratiques standard de manière critique et offrent des opinions franches qui font appel au bon sens d'un lecteur sceptique. Malheureusement, ces auteurs n'ont pas écrit de livre consacré au sujet que je pose dans ce post ("Stats 101", comme décrit ci-dessus). Je suis également conscient que l'un de ces auteurs (Gelman) est co-auteur de l' analyse de données bayésienne très appréciée , mais, encore une fois, ce n'est pas ce que je recherche pour le moment.
ÉDITER:
Dikran Marsupial soulève l'objection suivante:
Je ne pense pas qu'il y ait nécessairement quelque chose de mal à négliger les questions, il arrive un moment où le fait de répondre à chaque question nuit à l'exposé des concepts de base qui est souvent plus important (en particulier dans un livre de statistiques 101!).
Je suis d'accord avec ça. Il serait plus précis pour moi de dire que je cherche un "second regard sur les statistiques de base". En fait, avec cela comme motivation, j'ai regardé les manuels utilisés dans les cours de troisième cycle sur l'inférence (disons), et j'ai constaté qu'eux aussi j'ai négligeaient questions comme celles que j'avais énumérées. Si quoi que ce soit, ils semblaient encore moins enclins à se plonger dans de telles questions (afin qu'ils puissent se concentrer sur des questions telles que les conditions d'une convergence ou autre de ceci ou cela ...).
Le problème est que les livres les plus avancés s'adressent à une population de lecteurs radicalement différente , une où le "scepticisme de l'étranger" a été considérablement épuisé. IOW, ceux qui prennent des statistiques de niveau supérieur ont dépassé le point d'être dérangés par les questions qui me dérangent. Ils ne sont plus sceptiques à propos de tout cela. (Comment ont-ils surmonté la bosse du scepticisme? Peut-être que certains n'ont jamais été trop critiques en premier lieu, surtout s'ils ont appris leurs statistiques assez tôt - je sais que je n'étais pas moi-même un étudiant de première année particulièrement critique, par exemple, même si je ne l'ai pas fait prendre des statistiques à ce moment-là. D'autres ont peut-être eu des enseignants qui ont rempli leurs manuels. Certains ont peut-être été assez intelligents pour trouver par eux-mêmes les réponses à ces questions. Qui sait.)
Réponses:
Vous avez déjà quelques bonnes suggestions. En voici encore plus. Tout d'abord, deux blogs que je lis sporadiquement, et où des questions telles que vous vous posez sont parfois discutées. Comme ce sont des blogs, vous pouvez même poser des questions et obtenir de très bonnes réponses! Les voilà:
http://andrewgelman.com/ (Andrew Gelman)
http://errorstatistics.com/ (Deborah Mayo)
Et quelques livres, je pense, vous aideront: Box, Hunter & Hunter: Statistiques pour les expérimentateurs.
Comme le titre l'indique, il s'agit d'un ("premier", mais vraiment, vraiment ... deuxième) cours pour les personnes qui souhaitent concevoir leurs propres expériences, et donc les analyser. Très haut sur la partie "pourquoi".
Ensuite: DR Cox: Principles of Statistical Inference, un autre très bon livre sur le "pourquoi" pas le "comment".
Et, puisque vous demandez pourquoi les moyens et les proportions sont traités différemment, voici un livre qui ne fait pas cela: http://www.amazon.com/Statistics-4th-David-Freedman/dp/0393929728/ref=sr_1_1?s = livres & ie = UTF8 & qid = 1373395118 & sr = 1-1 & mots-clés = affranchi + statistiques
Faible en mathématiques, élevé en principes.
la source
Je doute plutôt qu'il y ait un seul livre qui vous convienne, car les individus ont tendance à être sceptiques sur différentes choses, et les livres sont écrits pour un public cible plutôt que pour des individus. C'est l'une des bonnes choses à propos de l'enseignement par une personne, plutôt que juste un livre, c'est que vous pouvez poser des questions au fur et à mesure. C'est une chose assez difficile à faire dans un texte linéaire.
Je ne pense pas qu'il y ait nécessairement quelque chose de mal à négliger les questions, il arrive un moment où le fait de répondre à chaque question nuit à l'exposé des concepts de base qui est souvent plus important (en particulier dans un livre de statistiques 101!).
Je soupçonne que la meilleure approche consiste à obtenir un bon livre, puis à chercher la réponse aux questions sans réponse ailleurs. J'ai une étagère pleine de textes statistiques devant moi, simplement parce qu'aucun d'eux seul n'est tout ce dont j'ai besoin (pas même le livre de Jaynes; o).
Pour le débutant absolu, je pense que le livre de Grant Foster "Understanding Statistics" est un bon point de départ, mais je pense qu'il est plutôt trop basique dans ce cas.
la source
la source
Abelson (1995), Statistics as Principled Argument est introductif et a un point de vue intéressant sur certaines des questions qui déroutent souvent les apprenants.
Mais peut-être que vous avez juste besoin de lire quelques livres sur les statistiques théoriques (en ignorant tout ce qui concerne la convergence, les espaces métriques, etc.), puis même s'ils ne répondent pas spécifiquement à des questions comme vos exemples, vous pourrez répondre à la plupart des vous-même, et recherchez le reste, comme le suggère @Dikran.
J'ai suggéré dans un autre fil de lecture Cox & Hinkley, Theoretical Statistics ou Cox, Principles of Statistical Inference avec Casella & Berger, Statistical Inference pour comprendre les différentes perspectives.
la source