Règles empiriques pour les statistiques «modernes»

85

J'aime le livre de G van Belle sur les règles statistiques statistiques , et dans une moindre mesure, les erreurs communes en statistique (et comment les éviter) de Phillip I Good et James W. Hardin. Ils traitent des pièges courants lors de l'interprétation des résultats d'études expérimentales et observationnelles et fournissent des recommandations pratiques en matière d'inférence statistique ou d'analyse exploratoire de données. Mais j’ai le sentiment que les directives "modernes" manquent quelque peu, en particulier du fait de l’utilisation croissante de statistiques robustes et computationnelles dans divers domaines, ou de l’introduction de techniques issues de la communauté de l’apprentissage automatique, par exemple la biostatistique clinique ou l’épidémiologie génétique.

Outre les astuces informatiques ou les pièges courants de la visualisation des données qui pourraient être abordés ailleurs, j'aimerais poser la question suivante: Quelles sont les principales règles empiriques que vous recommanderiez pour une analyse efficace des données? ( une règle par réponse, s'il vous plaît ).

Je songe aux lignes directrices que vous pourriez donner à un collègue, à un chercheur sans connaissances approfondies en modélisation statistique ou à un étudiant dans un cours intermédiaire à avancé. Cela peut concerner différentes étapes de l'analyse des données, telles que les stratégies d'échantillonnage, la sélection de caractéristiques ou la création de modèles, la comparaison de modèles, l'estimation ultérieure, etc.

modeling eda rule-of-thumb chl
la source

62

N'oubliez pas de vérifier certaines données de base avant de lancer l'analyse. En particulier, examinez le diagramme de dispersion de chaque variable que vous souhaitez analyser par rapport au numéro d’identification, à la date et à l’heure de la collecte des données ou à une mesure similaire. L'œil peut souvent détecter des problèmes qui révèlent des problèmes lorsque des statistiques résumées ne révèlent rien d'inhabituel. Et si vous souhaitez utiliser un journal ou une autre transformation pour l'analyse, utilisez-le également pour le graphique.

un arrêt
la source

6

J'ai appris celui-ci à la dure. Deux fois.

onestop

2

Oui! Réfléchir avant d'agir. S'il vous plaît, regardez les données.

vqv

7

L'inspection visuelle des données peut gonfler l'erreur de type I si les décisions sont prises post-hoc. J'ai tendance à effectuer des analyses de confirmation telles qu'elles ont été définies au préalable et à inclure les résultats qui ont été affectés par l'inspection sous forme d'analyses exploratoires ou de sensibilité.

AdamO

51

Gardez votre analyse reproductible. Un réviseur, votre chef ou une autre personne finira par vous demander comment vous en êtes arrivé au résultat - probablement six mois ou plus après l'analyse. Vous ne vous souviendrez pas comment vous avez nettoyé les données, quelle analyse vous avez faite, pourquoi vous avez choisi le modèle spécifique que vous avez utilisé ... Et reconstruire tout cela est une douleur.

Corollaire: utilisez un langage de script quelconque, ajoutez des commentaires dans vos scripts d'analyse et conservez-les. Ce que vous utilisez (R, SAS, Stata, peu importe) est moins important que d’avoir un script totalement reproductible. Rejette les environnements dans lesquels c'est impossible ou inconfortable.

Stephan Kolassa
la source

24

Si vous comptez utiliser R, nous vous recommandons d'intégrer votre code R dans un document Sweave qui produit votre rapport. Ainsi, le code R reste dans le rapport.

John D. Cook

36

Il n'y a pas de repas gratuit

Une grande partie des défaillances statistiques est créée en cliquant sur un gros bouton brillant appelé "Calculer la signification" sans prendre en compte le fardeau de ses hypothèses cachées.

Répéter

Même si un seul appel à un générateur aléatoire est impliqué, on peut avoir de la chance ou de la malchance et sauter ainsi aux mauvaises conclusions.

utilisateur88
la source

29

Une règle par réponse ;-)

Parlez au statisticien avant de mener l'étude. Si possible, avant de demander la subvention. Aidez-le à comprendre le problème que vous étudiez, demandez-lui comment analyser les données que vous êtes sur le point de collecter et réfléchissez à ce que cela signifie pour la conception de votre étude et aux exigences en matière de données. Peut-être que les statistiques suggèrent de créer un modèle hiérarchique pour déterminer qui a diagnostiqué les patients - vous devez ensuite suivre qui a diagnostiqué qui. Cela semble banal, mais il vaut bien mieux y réfléchir avant de collecter des données (et de ne pas collecter quelque chose de crucial) plutôt qu'après.

Sur une note connexe: faites une analyse de puissance avant de commencer. Rien n’est aussi frustrant que de ne pas avoir prévu un échantillon suffisamment important. En réfléchissant à la taille de l'effet que vous attendez, rappelez-vous un biais de publication - la taille de l'effet que vous allez trouver sera probablement plus petite que ce à quoi vous vous attendiez compte tenu de la littérature (biaisée).

S. Kolassa - Rétablir Monica
la source

28

Une chose que je dis à mes étudiants est de produire un graphique approprié pour chaque valeur p. par exemple, un diagramme de dispersion s'ils testent la corrélation, des boîtes à moustaches côte à côte s'ils réalisent une ANOVA à un facteur, etc.

Rob Hyndman
la source

28

Si vous choisissez entre deux méthodes d'analyse de vos données, essayez-les dans les deux sens et voyez si cela fait une différence.

Ceci est utile dans de nombreux contextes:

Transformer ou ne pas transformer
Test non paramétrique ou paramétrique
Corrélation de Spearman ou de Pearson
ACP ou analyse factorielle
Soit utiliser la moyenne arithmétique ou une estimation robuste de la moyenne
S'il faut inclure une covariable ou non
Utiliser ou non la suppression par liste, la suppression par paire, l'imputation ou une autre méthode de remplacement des valeurs manquantes

Cela ne devrait pas dispenser de réfléchir à la question, mais cela donne au moins une idée de la mesure dans laquelle les conclusions de fond sont robustes au choix.

Jeromy Anglim
la source

4

Est-ce une citation? Je me demande simplement comment des procédures de test alternatives (et non des stratégies d'analyse!) Peuvent ne pas perturber quelque peu le contrôle de l'erreur de type I ou du calcul de la puissance initiale. Je sais que SAS retourne systématiquement les résultats des tests paramétriques et non paramétriques (au moins dans la comparaison des moyennes et de l'ANOVA sur deux échantillons), mais je trouve toujours cela intriguant: ne devrions-nous pas décider avant de voir les résultats quel test appliquer?

chl

4

@chl bon point. Je conviens que la règle de base ci-dessus peut être utilisée pour les mauvaises raisons. C'est-à-dire, essayer des choses de multiples façons et ne rapporter que le résultat qui donne la réponse la plus agréable. Je considère que la règle empirique est utile en tant qu’outil de formation d’analystes de données afin de connaître l’effet des décisions d’analyse sur les conclusions de fond. J'ai vu beaucoup d'étudiants s'égarer dans des décisions, en particulier lorsqu'il y a des conseils contradictoires dans la littérature (par exemple, transformer ou ne pas transformer) qui ont souvent une influence minime sur les conclusions de fond.

Jeromy Anglim le

1

@chl non ce n'est pas une citation. Mais j’ai pensé qu’il était bon de démarquer la règle empirique de son raisonnement et de ses mises en garde. Je l'ai changé en gras pour le rendre clair.

Jeromy Anglim le

1

Ok, il est logique pour moi d'essayer différentes transformations et de voir si cela permet de mieux rendre compte des relations étudiées. Ce que je ne comprends pas, c’est d’essayer différentes stratégies d’analyse, bien que ce soit la pratique courante (mais cela n’a pas été rapporté dans les articles publiés :-), en particulier. quand ils s'appuient sur différentes hypothèses (dans EFA vs PCA, vous supposez un terme d'erreur supplémentaire; dans les tests non paramétriques vs paramétriques, vous en jetez une partie, etc.). Mais je suis d'accord sur le fait que la démarcation entre analyse exploratoire et confirmation n'est pas si claire ...

chl

2

Cela ne me semble utile que pour des analyses exploratoires ou lors des étapes de formation et de validation. Vous aurez toujours besoin d'une dernière étape de vérification ou sinon vous pourriez vous tromper en obtenant certains résultats significatifs qui fonctionnent bien une fois que vous avez obtenu la différence souhaitée en fonction de vos croyances «subjectives» . Qui doit juger quelle méthode fonctionne le mieux? Personnellement, si je doute de différentes méthodes, je le teste alors sur des données simulées, afin de tester des éléments tels que la variance d'estimateurs ou la robustesse, etc.

Sextus Empiricus

22

Questionnez vos données. À l'ère moderne de la RAM bon marché, nous travaillons souvent sur de grandes quantités de données. Une erreur du «doigt de graisse» ou une «décimale perdue» peut facilement dominer une analyse. En l'absence de vérification de base de la santé mentale (ou de la représentation graphique des données, comme suggéré par d'autres ici), on peut perdre beaucoup de temps. Cela suggère également l’utilisation de techniques de base pour la «robustesse» aux valeurs aberrantes.

shabbychef
la source

2

Corollaire: regardez si quelqu'un a codé une valeur manquante comme "9999" au lieu de "NA". Si votre logiciel utilise cette valeur telle quelle, cela va gâcher votre analyse.

S. Kolassa - Rétablir Monica

21

Utilisez un logiciel qui montre la chaîne de la logique de programmation depuis les données brutes jusqu'aux analyses / résultats finaux. Évitez les logiciels comme Excel, où un utilisateur peut faire une erreur indétectable dans une cellule, que seule une vérification manuelle permettra de détecter.

la source

1

VisTrails est un système qui facilite ce processus. (J'ai utilisé uniquement des systèmes homebrew; les objectifs de groupe communs sont plus importants qu'un outil particulier.)

denis

18

Demandez-vous toujours "que signifient ces résultats et comment seront-ils utilisés?"

L’utilisation de statistiques a généralement pour but d’aider à prendre des décisions dans l’incertitude. Il est donc important d’avoir à l’esprit "quelles décisions seront prises à la suite de cette analyse et comment cette analyse influencera-t-elle ces décisions?" (Par exemple, publier un article, recommander l’utilisation d’une nouvelle méthode, fournir un financement de X $ à Y, obtenir plus de données, indiquer une quantité estimée en tant que E, etc.etc.)

Si vous estimez qu'il n'y a aucune décision à prendre, on se demande alors pourquoi vous faites l'analyse en premier lieu (car cela coûte assez cher de faire une analyse). Je considère les statistiques comme une "nuisance" en ce sens qu’il s’agit d’un moyen de parvenir à une fin plutôt que d’une fin en soi. À mon avis, nous ne quantifions que les incertitudes afin de pouvoir les utiliser pour prendre des décisions qui rendent compte de ces incertitudes de manière précise.

Je pense que c'est l'une des raisons pour lesquelles garder les choses simples est une bonne politique en général, car il est généralement beaucoup plus facile de relier une solution simple au monde réel (et donc à l'environnement dans lequel la décision est prise) à la solution complexe. . Il est également généralement plus facile de comprendre les limites de la réponse simple. Vous passez ensuite aux solutions plus complexes lorsque vous comprenez les limites de la solution simple et comment la solution complexe les aborde.

probabilislogic
la source

3

Je suis d'accord avec tout sauf sur l'idée de garder les choses simples. Pour moi, la simplicité ou la complexité devrait être fonction du coût de la décision irrégulière que vous avez expliqué avec éloquence. La simplicité peut avoir des coûts négligeables dans un domaine (par exemple, la mauvaise publicité pour un client) et des coûts très différents dans un autre (administrer le mauvais traitement à un patient).

Thomas Speidel

18

Il peut y avoir une longue liste mais en mentionner quelques unes: (sans ordre particulier)

La valeur P n'est PAS une probabilité. Plus précisément, ce n'est pas la probabilité de commettre une erreur de type I. De même, les IC n'ont pas d'interprétation probabiliste pour les données fournies. Ils sont applicables pour des expériences répétées.
Le problème lié à la variance domine le biais la plupart du temps, donc une estimation biaisée avec une variance faible est préférable à une estimation non biaisée avec une variance importante (la plupart du temps).
L'ajustement d'un modèle est un processus itératif. Avant d'analyser les données, comprenez la source des données et les modèles possibles qui correspondent ou non à la description. Essayez également de modéliser les problèmes de conception de votre modèle.
Utilisez les outils de visualisation, examinez les données (pour détecter d'éventuelles anomalies, tendances évidentes, etc., afin de comprendre les données) avant de les analyser. Utilisez les méthodes de visualisation (si possible) pour voir comment le modèle s’adapte à ces données.
Dernier point mais non le moindre, utilisez un logiciel statistique pour ce à quoi ils sont destinés (pour faciliter votre tâche de calcul), ils ne se substituent pas à la pensée humaine.

suncoolsu
la source

14

Votre élément 1 est incorrect: la valeur P est la probabilité d'obtenir des données aussi extrêmes ou plus extrêmes compte tenu de l'hypothèse nulle. Autant que je sache, cela signifie que P est une probabilité - conditionnelle mais néanmoins une probabilité. Votre déclaration est correcte dans les circonstances où l’on travaille dans le paradigme d’erreurs de Neyman-Pearson, mais pas dans le paradigme de Fisherian où les valeurs de P sont des preuves évidentes de l’hypothèse nulle. Il est vrai que les paradigmes sont régulièrement mélangés dans un méli-mélo incohérent, mais les deux sont «corrects» lorsqu'ils sont utilisés seuls et intacts.

Michael Lew

2

Pour les intervalles de confiance, vous ne corrigez à nouveau que dans les limites des intervalles de confiance de Neyman. Fisher (et d’autres avant lui) ont également conçu et utilisé des éléments que l’on pourrait interpréter comme des intervalles de confiance, et il existe une interprétation parfaitement valide de tels intervalles qui fait référence à l’expérience particulière qui a produit l’intervalle. À mon avis, ils sont de loin préférables à ceux de Neyman. Voir ma réponse à la question Fonctions discrètes: Couverture d'intervalle de confiance? pour plus de détails: stats.stackexchange.com/questions/8844/…

Michael Lew

@ Michael vous avez raison, mais voyons: combien de fois le Null est-il correct? Ou mieux: Quelqu'un peut-il prouver que le null est correct? Nous pouvons aussi avoir de profonds débats philosophiques à ce sujet, mais ce n’est pas la question. Dans le contrôle de la qualité, les répétitions ont du sens, mais dans la science, toute règle de bonne décision doit conditionner les données.

suncoolsu

1

Fisher le savait (conditionnant les données observées et la remarque sur le contrôle de la qualité est basée sur cela). Il a produit de nombreux contre-exemples basés sur cela. Les Bayésiens se disputent à ce sujet, disons, depuis plus d'un demi-siècle.

suncoolsu

1

@ Michael Désolé si je n'ai pas été assez clair. Tout ce que je voulais dire: la valeur P est une probabilité SEULEMENT lorsque la valeur NULL est vraie, mais la plupart du temps, la valeur NULL n’est PAS vraie (comme dans: nous n’attendons jamais que soit vrai; nous supposons que ce soit vrai, mais notre hypothèse est pratiquement inexacte.) Au cas où vous seriez intéressé (e), je peux signaler quelques ouvrages traitant de cette idée plus en détail.

μ = 0

$\mu=0$

suncoolsu

13

Pour l'organisation / la gestion des données, veillez à ce que les variables d'origine ne soient jamais supprimées lorsque vous générez de nouvelles variables dans le jeu de données (par exemple, calcul de l'indice de masse corporelle à partir de la taille et du poids). Une approche non destructive est préférable dans une perspective de reproductibilité. Vous ne savez jamais quand vous risquez de mal entrer une commande et de devoir par la suite refaire votre génération de variable. Sans les variables d'origine, vous perdrez beaucoup de temps!

pmgjones
la source

11

Penser dur sur le processus de génération de données sous - jacent (DGP). Si le modèle que vous souhaitez utiliser ne correspond pas au modèle de stratégie de groupe, vous devez en trouver un nouveau.

Jason Morgan
la source

Comment savez-vous, comment pouvez-vous savoir ce qu'est le DGP? Par exemple, je publie des séries chronologiques dans un domaine où je n'ai pas encore vu de théorie bien développée (pourquoi certains types de dépenses publiques se produisent). Je ne pense pas qu'il soit possible de connaître le véritable processus dans ce cas.

user54285

8

Pour les histogrammes, une bonne règle générale pour le nombre de cases dans un histogramme :

racine carrée du nombre de points de données

doug
la source

6

Malgré des ensembles de données de plus en plus volumineux et des logiciels plus puissants, les modèles de sur-adaptation constituent un danger majeur pour les chercheurs, en particulier ceux qui n'ont pas encore été brûlés. Sur-adapter signifie que vous avez adapté quelque chose de plus complexe que vos données et l'état de la technique. Comme l'amour ou la beauté, il est difficile de définir, encore moins formellement, mais plus facile à reconnaître.

Une règle empirique minimale est de 10 points de données pour chaque paramètre estimé pour une régression classique, et faites attention aux conséquences si vous l'ignorez. Pour les autres analyses, vous avez généralement besoin de beaucoup plus pour faire du bon travail, en particulier si les données contiennent de rares catégories.

Même si vous pouvez adapter un modèle facilement, vous devez vous préoccuper constamment de sa signification et de la reproductibilité de ce dernier, même avec un ensemble de données très similaire.

Nick Cox
la source

C'est généralement considéré comme une règle de base pour les modèles où la réponse est conditionnellement normale. Dans d'autres cas, c'est trop libéral. Par exemple, pour la classification binaire, la règle empirique correspondante serait 15 observations dans la catégorie moins commune pour chaque variable; & pour l'analyse de survie, il s'agirait de 10 événements (c'est-à-dire des données non censurées) pour chaque variable.

gung - Réintégrer Monica

Je suis d'accord. Je vais éditer, mais pourquoi ne pas publier votre propre règle générale à côté de commentaires détaillés.

Nick Cox

1

Vous devez mettre en évidence la dernière phrase "Même si vous pouvez adapter un modèle facilement, vous devez vous préoccuper constamment de sa signification et de la mesure dans laquelle il est reproductible, même avec un ensemble de données très similaire."

Sextus Empiricus

6

$Y_{t+h}$ $(Y_t,X_t)$ $t>T$ $(Y_1,X_1),\dots, (Y_T,X_T)$

$Y_{t+h}$
$Y_{t+h}$ $Y_t$

$Y_{t+h}$ $Y_t+X_t$

robin girard
la source

5

Si le modèle ne converge pas facilement et rapidement, cela pourrait être la faute du logiciel. Il est cependant beaucoup plus courant que vos données ne conviennent pas au modèle ou que le modèle ne convient pas aux données. Il pourrait être difficile de dire lequel, et les empiristes et les théoriciens peuvent avoir des points de vue différents. Mais la réflexion par sujet, l’examen approfondi des données et la réflexion constante sur l’interprétation du modèle sont d’une aide inestimable. Par-dessus tout, essayez un modèle plus simple si un modèle compliqué ne converge pas.

Il n’ya aucun avantage à forcer la convergence ou à proclamer la victoire et à prendre des résultats après de nombreuses itérations mais avant que votre modèle n’ait réellement convergé. Au mieux, vous vous trompez si vous faites cela.

Nick Cox
la source

"vraiment en regardant les données" ce serait tellement bien quand nous obtenons un NN qui fait ce travail pour nous.

Sextus Empiricus

Cela s'appelait JWT.

Nick Cox

5

Dans la régression de variables instrumentales, vérifiez toujours la signification conjointe de vos instruments. La règle empirique de Staiger-Stock stipule qu'une statistique F inférieure à 10 est inquiétante et indique que vos instruments peuvent être faibles, c'est-à-dire qu'ils ne sont pas suffisamment corrélés avec la variable endogène. Cependant, cela ne signifie pas automatiquement qu'un F supérieur à 10 est la garantie d'instruments puissants. Staiger et Stock (1997) ont montré que les techniques de variables instrumentales telles que 2SLS peuvent être fortement biaisées dans les "petits" échantillons si les instruments ne sont que faiblement corrélés à la variable endogène. Leur exemple est l’étude de Angrist et Krueger (1991) qui a effectué plus de 300 000 observations - un fait troublant concernant la notion de "petits" échantillons.

Martijn Weterings
la source

J'ai ajouté le lien à l'article, mais je pense que cette réponse a besoin d'une mise en forme supplémentaire, j'ai trouvé trop difficile d'insister sur la "règle empirique" basée sur le balayage très rapide de l'article, et cette réponse n'est pas très intuitive.

Sextus Empiricus

3

Il n'y a pas de critère pour choisir des critères d'information.

Une fois que quelqu'un a dit quelque chose comme "Le? IC l'indique, mais il est souvent connu pour donner de mauvais résultats" (où? Est-ce qu'une lettre vous plait), vous savez qu'il vous faudra aussi réfléchir au modèle et surtout si cela fait sens scientifique ou pratique.

Aucune algèbre ne peut vous dire cela.

Nick Cox
la source

2

J'ai lu ceci quelque part (probablement en croix validée) et je n'ai pas été en mesure de le trouver nulle part, alors voilà ...

Si vous avez découvert un résultat intéressant, c'est probablement faux.

Il est très facile d’être excité par la perspective d’une valeur p stupéfiante ou d’une erreur de validation croisée presque parfaite. J'ai personnellement présenté avec enthousiasme à des collègues des résultats impressionnants (faux), pour ensuite les rétracter. Le plus souvent, si cela semble trop beau pour être vrai ...

'souiller vrai. 'Taint true du tout.

Timwiz
la source

2

Essayez d'être vaillant plutôt que vertueux C'est-à-dire, ne laissez pas de petits signes de non-normalité, de non-indépendance ou de non-linéarité, etc., bloquer votre route si de telles indications doivent être ignorées afin que les données parlent haut et fort . - En danois, "dristig" et "dydig" sont les adjectifs.

Jørgen Hilden
la source

1

Lors de l'analyse des données longitudinales, assurez-vous de vérifier que les variables sont codées de la même manière pour chaque période.

Lors de la rédaction de ma thèse, qui impliquait l’analyse de données secondaires, il ya eu environ une semaine de confusion totale d’un décalage d’une unité des scores moyens de la dépression sur une moyenne par an stable: il s’est avéré celui d’une année de mon ensemble de données, les éléments d’échelle d’un instrument validé avaient été codés 1–4 au lieu de 0–3.

Alexis
la source

1

Votre hypothèse devrait guider votre choix de modèle, et non l'inverse.

Pour paraphraser Maslow, si vous êtes un marteau, tout ressemble à un clou. Des modèles spécifiques comportent des œillères et des hypothèses sur le monde: des modèles non dynamiques, par exemple, s’étouffent au retour des résultats du traitement.

Alexis
la source

1

Utilisez la simulation pour vérifier si la structure de votre modèle peut créer des "résultats" qui ne sont que des artefacts mathématiques des hypothèses de votre modèle.

Réalisez votre analyse sur des variables rediffusées ou sur des variables simulées connues pour être décorrélées les unes des autres. Faites-vous cela plusieurs fois et comparez les estimations ponctuelles moyennes (et les intervalles de confiance ou crédibles) aux résultats obtenus avec les données réelles: sont-ils si différents?

Alexis
la source

0

Je suis un analyste de données plutôt qu'un statisticien, mais ce sont mes suggestions.

1) Avant d’analyser les données, assurez-vous que les hypothèses de votre méthode sont correctes. Une fois que vous voyez les résultats, il peut être difficile de les oublier même après avoir résolu les problèmes et les résultats changent.

2) Il est utile de connaître vos données. Je fais des séries chronologiques et j’ai un résultat qui n’a guère de sens compte tenu des données des dernières années. J'ai examiné les méthodes à la lumière de cela et découvert que la moyenne des modèles de la méthode faussait les résultats pour une période donnée (et qu'une rupture structurelle s'était produite).

3) Faites attention aux règles de base. Ils reflètent les expériences de chercheurs individuels à partir de leurs propres données. Si leur domaine est très différent du vôtre, leurs conclusions risquent de ne pas être correctes pour vos données. De plus, et cela a été un choc pour moi, les statisticiens sont souvent en désaccord sur des points essentiels.

4) Essayez d’analyser les données avec différentes méthodes et voyez si les résultats sont similaires. Comprenez qu'aucune méthode n'est parfaite et veillez à vérifier le plus possible le non-respect des hypothèses.

utilisateur54285
la source

Règles empiriques pour les statistiques «modernes»

Réponses:

Il n'y a pas de repas gratuit

Répéter

Si vous avez découvert un résultat intéressant, c'est probablement faux.