Quels sont quelques exemples de pratiques anachroniques en statistique?

55

Je fais référence à des pratiques qui conservent toujours leur présence, même si les problèmes (généralement informatiques) auxquels elles étaient conçues étaient en grande partie résolus.

Par exemple, la correction de continuité de Yates a été inventé pour rapprocher le test exact de Fisher avec test, mais il n'est pratique plus depuis le logiciel peut désormais gérer le test de Fisher même avec de grands échantillons (je sais que cela peut ne pas être un bon exemple de « maintenir son présence ", car les manuels, comme l' analyse de données catégoriques d'Agresti , reconnaissent souvent que la correction de Yates" n'est plus nécessaire "). $\chi^2$

Quels sont d'autres exemples de telles pratiques?

references philosophical Francis
la source

En réalité, je ne suis pas sûr que le test du chi-carré soit devenu obsolète en raison de la disponibilité de la puissance de calcul permettant d'exécuter le test exact de Fisher. Par exemple, vos marginaux sont-ils vraiment fixes? Voir cette réponse à une autre question de @gung, par exemple. (Je suis presque sûr que nous avons un fil de discussion sur la question plus en détail mais je ne le trouve pas car nous avons beaucoup de "devrais-je utiliser chi-carré ou devrais-je utiliser le test exact de Fisher" qui apparaît quand Je cherche!)

Silverfish

@Silverfish: je ne voulais pas dire que

était obsolète, seule la correction de Yates l'était. Je crois que des études ont montré que la correction de Yates est trop conservatrice lorsque les marginaux ne sont pas fixes. L'article de Michael Haber intitulé La correction de la continuité et les tests statistiques fournit un compte rendu.

χ^{2}

$\chi^2$

Francis

4

@ Silverfish, c'est probablement ce que vous recherchez: compte tenu de la puissance des ordinateurs de nos jours, y a-t-il déjà une raison de faire un test du khi-deux au lieu du test exact de Fisher?

gung - Rétablir Monica

utiliser OLS au lieu de LAD?

PatrickT

5

@PatrickT: J'ai beaucoup de difficulté à dire que OLS est anachronique. Bien sûr, il y a des cas spéciaux où la DAL est clairement supérieure ... mais on peut en dire autant dans l'autre sens.

Cliff AB

49

Il est tout à fait discutable que l’utilisation de seuils de signification tels que ou soit une survivance historique d’une période où la plupart des chercheurs dépendaient de tableaux de valeurs critiques calculés antérieurement. Maintenant, un bon logiciel donnera directement les valeurs En effet, un bon logiciel vous permet de personnaliser votre analyse et de ne pas dépendre de tests manuels. $P = 0.05$ $P = 0.01$ $P$

Cette question est controversée, ne serait-ce que parce que certains problèmes de test d’importance nécessitent des décisions, comme dans le contrôle de la qualité où l’acceptation ou le rejet d’un lot est la décision nécessaire, suivie d’une action dans les deux sens. Mais même dans ce cas, les seuils à utiliser devraient découler d'une analyse de risque et non dépendre de la tradition. Et souvent dans les sciences, l’analyse des indications quantitatives est plus appropriée que les décisions: penser quantitativement implique de prêter attention à la taille des valeurs de et pas seulement à une dichotomie grossière, significative par rapport à non significative. $P$

Je soulignerai que je touche ici à une question complexe et controversée qui fait l’objet de livres entiers et probablement de milliers de journaux, mais cela semble un exemple juste pour ce fil.

Nick Cox
la source

4

Excellent exemple! Pour référence, ce fil mérite d'être mentionné: Concernant les valeurs p, pourquoi 1% et 5%? Pourquoi pas 6% ou 10%?

Francis

5

@ JM Je suis à 95% sûr que vous avez raison, même si je ne le suis pas à 99%.

Mark L. Stone

5

α = 0.038561

$\alpha = 0.038561$

4

@CliffAB Je ne pense pas que le point essentiel d'une valeur de p exacte est que vous décidez ensuite qu'elle constitue le niveau critique que vous souhaitez adopter pour prendre une décision. Je ne suggère ni ne préconise certainement cela. Une partie de l'argument n'est pas seulement que 0,05 et 0,01 sont au mieux les niveaux conventionnels, mais que les tests fournissent un moyen d'évaluer la solidité de la preuve par rapport à une hypothèse nulle plutôt que de prendre une décision binaire. En pratique, les niveaux 0,05 et 0,01 restent très largement utilisés dans de nombreux domaines.

Nick Cox

4

@ Nick Cox Et n'oubliez pas le niveau 0.1 pour la foule décontractée et décontractée.

Mark L. Stone

24

Une méthode sur laquelle je pense que de nombreux visiteurs de ce site seront d’accord avec moi est la régression par étapes. C'est toujours fait tout le temps, mais vous n'avez pas à chercher très loin sur ce site des experts qui déplorent son utilisation. Une méthode comme LASSO est de loin préférée.

Cliff AB
la source

4

HA!! Vous recommandez le remplacement d'un anachronisme (régression par étapes) par l'anachronisme de prochaine génération (LASSO), qui est un anachronisme à son époque, dont les adhérents ne le réalisent pas encore. Voir stats.stackexchange.com/questions/162861/… .

Mark L. Stone

3

@ MarkL.Stone: Hé mec, au moins 20 ans vont dans la bonne direction. Je ne connais pas très bien ces méthodes, je devrais donc en prendre connaissance avant de pouvoir leur donner mon aval.

Cliff AB

2

Après avoir rapidement lu l'article, je suis un peu hésitant à décider que LASSO est officiellement obsolète, bien que ce ne soit clairement pas toujours le choix optimal. Peut-être que dans 5 ans, je serai plus à l'aise d'appeler LASSO obsolète.

Cliff AB

2

@ amoeba: Je pense que Mark fait référence à la pratique consistant à utiliser LASSO comme outil pour la meilleure régression de sous-ensemble. Par exemple, je me souviens vaguement d'avoir lu quelqu'un qui a d'abord discuté de l'ajustement de LASSO, puis du réaménagement d'un modèle non pénalisé à l'aide des paramètres de régression non nuls. La meilleure régression de sous-ensemble peut constituer un moyen plus direct de procéder (bien que, comme vous le dites, il n’est pas clair que ce soit une bonne idée même si c’est ce que l’analyste veut faire).

Cliff AB

2

... et le document présente au moins une situation (la simulation sous certains paramètres) où LASSO est clairement surpassé, même si je pense que nous savons tous à quel point nous devons prendre au sérieux ces résultats.

Cliff AB

17

Mon point de vue est qu'au moins en économétrie (appliquée), il est de plus en plus courant d'utiliser la matrice de covariance robuste ou empirique plutôt que la "pratique anachronique" consistant à s'appuyer (asymptotiquement) sur la spécification correcte de la matrice de covariance. Bien sûr, cela n’est pas sans controverse: consultez certaines des réponses que j’ai liées ici chez CrossValidated, mais c’est certainement une tendance claire.

$E[uu'] = \sigma^2 I_n$

Parmi les autres exemples, citons les données de panel, Imbens et Wooldridge écrivent, par exemple, dans leur exposé, des diapositives suggèrent de ne pas utiliser la matrice de covariance de la variance à effets aléatoires (en supposant implicitement que certaines composantes de la variance sont mal spécifiées:

$\sigma_c^2$ $\sigma_u^2$

En utilisant des modèles linéaires généralisés (pour les distributions appartenant à la famille exponentielle), il est souvent conseillé d'utiliser toujours le soi-disant estimateur en sandwich plutôt que de s'appuyer sur des hypothèses de distribution correctes (la pratique anachronique ici): voir par exemple cette réponse ou Cameron compter les données car l' estimation du pseudo-maximum de vraisemblance peut être assez flexible en cas de spécification erronée (par exemple, en utilisant Poisson si binomial négatif serait correct).

De telles corrections d'erreur type [blanches] doivent être apportées à la régression de Poisson, car elles peuvent faire une différence beaucoup plus grande que les corrections d'hétéroscédasticité similaires pour MLS.

Greene écrit dans son manuel au chapitre 14 (disponible sur son site Web) par exemple avec une note critique et va plus en détail sur les avantages et les inconvénients de cette pratique:

La littérature actuelle a tendance à calculer régulièrement cet estimateur [sandwich], quelle que soit la fonction de vraisemblance. * [...] * Nous soulignons encore une fois que l'estimateur sandwich, en soi, n'est pas nécessairement vertu si la fonction de vraisemblance est spécifiée incorrectement et que les autres conditions de l’estimateur M ne sont pas remplies.

Arne Jonas Warnke
la source

4

Intéressant, mais la question est de savoir ce qui est anachronique, et non ce qui est de plus en plus standard, la réponse doit donc être inversée.

Nick Cox

1

Bonjour Nick, merci pour votre commentaire (et vos modifications), j'ai modifié le texte pour mettre en évidence ce qu'est la pratique anachronique, j'espère que cela deviendra un peu plus clair. Je n’ai pas inversé l’ensemble du texte, car la pratique antérieure est proche de ne rien faire spécialement à propos de l’erreur type.

Arne Jonas Warnke

Dans certains cas, il n’est ni naturel ni possible d’utiliser des alternatives robustes, par exemple des séries chronologiques. Donc, je pense que cela ne devient pas "plus populaire" mais juste "plus populaire dans certaines régions".

Henry.L

13

$m > 1$ $m$ $m = 1$

$m = 30$

Cliff AB
la source

Je suis venu ici pour poster ceci. De plus, je ne suis pas convaincu qu'il existe une situation dans laquelle FWER serait préféré aux méthodes encore plus récentes du FDR (en raison de son évolutivité et de son adaptabilité).

Alexis

13

La plupart des pratiques anachroniques sont probablement dues à la manière dont les statistiques sont enseignées et au fait que les analyses sont conduites par un très grand nombre de personnes n'ayant suivi que quelques cours élémentaires. Nous enseignons souvent un ensemble d'idées et de procédures statistiques standard car elles forment une séquence logique de sophistication conceptuelle croissante qui a un sens pédagogique (cf. Comment pouvons-nous jamais connaître la variance de population? ). Je suis moi-même coupable: j'enseigne parfois les stats 101 et 102, et je dis constamment: «Il existe une meilleure façon de faire cela, mais cela dépasse le cadre de ce cours». Pour les étudiants qui ne vont pas au-delà de la séquence d'introduction (presque tous), ils se retrouvent avec des stratégies de base, mais dépassées.

Pour un exemple de statistiques 101, la pratique anachronique la plus courante consiste probablement à tester certaines hypothèses, puis à exécuter une analyse statistique classique car le test n'était pas significatif. Une approche plus moderne / avancée / défendable consisterait à utiliser une méthode robuste à cette hypothèse dès le début. Quelques références pour plus d'informations:
- Comment choisir entre le test t et le test non paramétrique, par exemple Wilcoxon dans de petits échantillons
- Le test de normalité est-il «essentiellement inutile»?
Pour les statistiques de 102 exemples, un certain nombre de pratiques de modélisation ont été dépassées:
- $Y$ $p$
- $Y$
- Utilisation d'un polynôme d'ordre supérieur pour capturer les splines cubiques et courbées.
- $p$ $R^2$
- Avec des données de mesures répétées, catégorisez une variable continue de manière à pouvoir utiliser rmANOVA ou calculez la moyenne de plusieurs mesures par rapport à l'utilisation d'un modèle mixte linéaire.
- Etc.

Le point important dans tous ces cas est que les gens suivent ce qu’ils ont appris en premier dans un cours d’introduction parce qu’ils ne connaissent tout simplement pas de méthodes plus avancées et plus appropriées.

vitesse
la source

5

Les tests de racine unitaire en économétrie constituent un exemple très intéressant . Bien que le polynôme retard d’une série chronologique (par exemple, le test de Dickey Fuller (augmenté) ou le test de KPSS) puisse être testé contre ou pour une racine unitaire, le problème peut être complètement évité en utilisant l’analyse bayésienne. . Sims l'a souligné dans son article provocateur intitulé Comprendre les racines de l'unité - Une visite en hélicoptère de 1991.

Les tests de racine unitaire restent valides et utilisés en économétrie. Personnellement, je dirais que cela tient principalement au fait que les personnes hésitent à s’adapter aux pratiques bayésiennes, mais de nombreux économétriciens conservateurs défendent la pratique des tests de racine unitaire en affirmant qu’une vision bayésienne du monde va à l’encontre des principes de la recherche économétrique. (C'est-à-dire que les économistes voient le monde comme un lieu avec des paramètres fixes et non des paramètres aléatoires régis par un hyperparamètre.)

Jeremias K
la source

5

Je serais intéressé par une brève discussion sur la façon dont les pratiques bayésiennes contournent ces tests. En d'autres termes, comment plaideriez-vous cette revendication?

Mike Hunter

Je dois admettre que cela fait longtemps que je n'ai pas lu le document, mais l'essentiel est que, si l'on utilise un précédent plat pour l'analyse bayésienne d'une série chronologique, on peut utiliser les valeurs t standard.

Jeremias K

5

Payer des droits de licence pour des systèmes logiciels statistiques de haute qualité. #R

pteetor
la source

1

Enseigner / mener des tests bilatéraux de différence sans tester simultanément l’ équivalence dans le domaine fréquentiste des tests d’hypothèses est un engagement profond en faveur du biais de confirmation .

Il existe certaines nuances, dans la mesure où une analyse de puissance appropriée avec une définition réfléchie de la taille d'effet peut éviter ce phénomène et fournir plus ou moins les mêmes types d'inférences, mais (a) les analyses de puissance sont si souvent ignorées dans la présentation des résultats et (b) I Je n'ai jamais vu d'analyse de puissance pour, par exemple, chaque coefficient estimé pour chaque variable dans une régression multiple, mais il est simple de le faire pour les tests combinés de différence et les tests d'équivalence (c'est-à-dire des tests de pertinence).

Alexis
la source

0

Utilisation d'un modèle binomial négatif plutôt que d'un modèle de Poisson (robuste) pour identifier un paramètre d'intérêt dans une variable de comptage, uniquement en raison d'une dispersion excessive?

Voir à titre de référence: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

La preuve que Poisson est plus robuste dans le cas des effets fixes est assez récente dans la mesure où elle fait souvent référence à: Wooldridge, JM, «Estimation sans distribution de certains modèles de données de panel non linéaires», Journal of Econometrics 90 (1999), 77–97.

Alexandre Cazenave-Lacroutz
la source

-6

Voici quelques anachronismes:

L'hypothèse néoplatonicienne selon laquelle il existe une seule et même "vraie" population dans l'éther théorique éternel, figé et immobile par rapport auquel nos échantillons imparfaits peuvent être évalués ne contribue guère à faire progresser l'apprentissage et les connaissances.
Le réductionnisme inhérent à des mandats tels que Razor d'Occam est incompatible avec l'époque. OU peut être résumé comme suit: "Parmi les hypothèses concurrentes, celle qui contient le moins d'hypothèses doit être sélectionnée". Les solutions de rechange incluent le principe d’explications multiples d’ Epicure , qui énonce à peu près ceci: "Si plusieurs théories sont cohérentes avec les données, conservez-les toutes".
L'ensemble du système d'examen par les pairs a désespérément besoin d'une refonte.

* Modifier *

Avec des données volumineuses contenant des dizaines de millions de caractéristiques, il n’est plus nécessaire de passer par une phase de sélection variable.
De plus, les statistiques inférentielles n'ont pas de sens.

DJohnson
la source

Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .

whuber

Quels sont quelques exemples de pratiques anachroniques en statistique?

Réponses: