Le chercheur 1 exécute 1000 régressions, le chercheur 2 exécute seulement 1, les deux obtiennent les mêmes résultats - devraient-ils faire des inférences différentes?

Imaginez qu'un chercheur explore un ensemble de données et exécute 1000 régressions différentes et qu'il trouve entre elles une relation intéressante.

Imaginez maintenant qu'un autre chercheur avec les mêmes données exécute une seule régression, et il s'avère que c'est le même que l'autre chercheur a pris 1000 régressions pour trouver. Le chercheur 2 ne connaît pas le chercheur 1.

Le chercheur 1 devrait-il faire des déductions différentes de celles du chercheur 2? Pourquoi? Par exemple, le chercheur 1 devrait-il effectuer plusieurs corrections de comparaisons, mais pas le chercheur 2?

Si le chercheur 2 vous montrait d'abord sa régression unique, quelles inférences feriez-vous? Si après que ce chercheur 1 vous a montré ses résultats, devriez-vous changer votre déduction? Si oui, pourquoi est-ce important?

PS 1 : Si parler d'hypothétiques chercheurs rend le problème abstrait, pensez-y: imaginez que vous n'avez effectué qu'une seule régression pour votre article, en utilisant la meilleure méthode disponible. Ensuite, un autre chercheur a exploré 1000 régressions différentes avec les mêmes données, jusqu'à ce qu'il trouve exactement la même régression que vous avez exécutée . Devriez-vous faire deux déductions différentes? Les preuves sont-elles les mêmes pour les deux cas ou non? Devriez-vous modifier votre inférence si vous connaissiez les résultats des autres chercheurs? Comment le public devrait-il évaluer les preuves des deux études?

PS 2: veuillez essayer d'être précis et de fournir une justification mathématique / théorique, si possible!

bayesian multiple-regression multiple-comparisons inference theory statslearner
la source

Pour être une comparaison valide, vous devez spécifier toutes les hypothèses nulles et alternatives. Le chercheur 2 ne peut tester qu'une hypothèse tandis que le chercheur 1 veut probablement contrôler la probabilité de ne pas faire 1 erreur de type 1 sur 1000. Si c'est l'inférence simultanée que vous voulez faire, vous devez alors faire l'ajustement de la valeur de p. Le chercheur 2 a un test et n'a pas besoin d'ajustement. Pour le chercheur 1, ajustez-vous différents modèles aux mêmes données ou un modèle adapté à chacun des 1000 ensembles de données?

Michael R. Chernick

@MichaelChernick, il n'y a qu'un seul ensemble de données. Le chercheur 1 ajuste 1 000 modèles pour le même ensemble de données jusqu'à ce qu'il trouve celui qu'il aime. Chercheur 2 ajusté seulement 1. Les deux chercheurs utilisent les mêmes données. Donc, diriez-vous que ces deux chercheurs devraient conclure des choses différentes avec exactement le même ensemble de données? Le chercheur 2 devrait à juste titre être sûr de son analyse, tandis que le chercheur 1 devrait gonfler ses intervalles de valeur p / confiance en raison de comparaisons multiples?

statslearner

Si vous avez suivi mon argument, ils le font en ce sens que seul le chercheur 2 teste une seule hypothèse tandis que le chercheur 1 teste 1000 hypothèses et doit contrôler toutes les hypothèses qu'il a testées. Cela implique deux problèmes différents. Ce qui est encore vague, c'est ce que vous entendez par «ne trouver qu'une seule relation intéressante». Vous pensez peut-être avoir posé une situation paradoxale. Je ne pense pas que ce soit le cas.

Michael R. Chernick

@MichaelChernick comment n'est-ce pas un paradoxe que les mêmes données exactes avec le même modèle conduisent à deux conclusions différentes? Si vous lisez les deux articles séparés, que concluriez-vous?

statslearner

@MichaelChernick Je l'ai fait, et je trouve troublant que vous pensiez que c'est correct --- les mêmes données exactes, avec le même modèle exact, conduisant à deux conclusions différentes. Voir mes commentaires sur la réponse.

statslearner

Réponses:

Voici mon biais "bayésien" sur votre question. Je pense que vous avez décrit une situation où deux personnes ayant des informations préalables différentes devraient obtenir une réponse / conclusion différente lorsqu'elles reçoivent le même ensemble de données. Un exemple plus brutal / extrême est supposé que nous avons un "chercheur 1b" qui arrive à deviner les paramètres et les conclusions du modèle de régression à partir de n'importe quelle hypothèse. L'exécution de régressions n'est pas conceptuellement trop éloignée des suppositions. $1000$

Qu'est-ce que je pense qui se passe ... qu'est-ce que nous apprenons sur les informations préalables des chercheurs de la question ci-dessus? - le chercheur 1 a probablement un a priori plat pour les modèles - le chercheur 2 a un a priori net pour le modèle d'intérêt (supposons que est le modèle auquel ils correspondent tous les deux) $P (M_k|I_1)=\frac {1}{1000}$ $P (M_1|I_2) =1$ $M_1$

C'est évidemment une simplification, mais vous pouvez voir ici, nous accordons déjà beaucoup plus de poids aux inférences du chercheur 2 sans aucune donnée. Mais vous voyez, une fois qu'ils auront tous les deux pris en compte les données, la probabilité postérieure du chercheur 1 pour augmentera ... (... nous le savons parce que c'était "mieux "que autres modèles ...). Le postérieur du chercheur 2 ne peut plus se concentrer, il est déjà égal à . Ce que nous ne savons pas, c'est combien les données ont pris en charge rapport aux alternatives. Ce que nous ne savons pas non plus, c'est comment les différents modèles modifient les conclusions de fond du chercheur 1. Par exemple, supposons que les $M_1$ $P (M_1|DI)>>P (M_1|I)$ $999$ $1$ $M_1$ $1000$ les modèles contiennent un terme commun, et tous les paramètres de régression pour cette variable sont significativement supérieurs à (par exemple, la pour tous les modèles). Il n'y a alors aucun problème à conclure à un effet significativement positif, même si de nombreux modèles étaient adaptés. $1000$ $0$ $p-value <10^{-8}$

Vous ne dites pas non plus la taille de l'ensemble de données, et c'est important! Si vous parlez d'un ensemble de données avec observations et covariables / prédicteurs / variables indépendantes, le chercheur 1 sera probablement encore assez incertain sur le modèle. Cependant, si le chercheur 1 utilise observations, cela peut déterminer de manière concluante le modèle. $100$ $10$ $2,000,000$

Il n'y a rien de fondamentalement mauvais avec deux personnes qui commencent avec des informations différentes et continuent d'avoir des conclusions différentes après avoir vu les mêmes données. Cependant ... voir les mêmes données les rapprochera, à condition que leur "espace modèle" se chevauche et que les données prennent en charge cette "région de chevauchement".

probabilitéislogique
la source

Donc, la partie fondamentale de votre affirmation est qu'ils devraient faire des déductions différentes parce qu'ils ont des antécédents différents, et non parce qu'ils ont "exploré les données", n'est-ce pas?

statslearner

Au fait, comment évalueriez- vous les preuves? Aimeriez-vous savoir combien de modèles le chercheur 1 a installé? Si oui, pourquoi?

statslearner

Je ne me soucierais pas nécessairement du nombre de modèles qui conviennent, mais si le modèle utilisé est connu avec certitude. Comme je l'ai mentionné brièvement, je voudrais savoir s'il existe des alternatives raisonnables. Par exemple, si le chercheur 1 prenait une décision "boule de droite" à propos d'une variable supprimée / ajoutée, je voudrais que cela soit mentionné.

probabilités

Pourquoi voudriez-vous que cela soit mentionné, cela changerait-il votre préalable d'une manière ou d'une autre? L'utilisez-vous comme proxy pour vous avant? Pour moi, la cartographie que vous faites n'est pas claire. Pourquoi les raisons d'un chercheur particulier importent-elles pour votre inférence, car cela n'affecte en rien le processus de génération de données?

statslearner

Nous considérons que l'ensemble de données ici est externe au chercheur, il ne l'a pas collecté et les deux chercheurs utilisent les mêmes données. Il semble que les conclusions des raisons ne peuvent pas être répliquées en psychologie est parce qu'ils utilisent juste seuils lâches d'importance que la norme de preuve pour juger plusieurs hypothèses fou toute personne / scientifique raisonnable les trouver a priori ridicule. Prenons notre cas ici, si l'hypothèse testée dans notre exemple est quelque chose de ridicule qu'une telle puissance pose, cela importerait-il que nous exécutions 1 ou 1000 régressions?

statslearner

L'interprétation statistique est beaucoup moins claire que ce que vous demandez, le traitement mathématique.

Les mathématiques concernent des problèmes clairement définis. Par exemple, lancer un dé parfait ou tirer des boules dans une urne.

Les statistiques sont des mathématiques appliquées où les mathématiques fournissent une ligne directrice mais ne sont pas la solution (exacte).

Dans ce cas, il est évident que les circonstances jouent un rôle important. Si nous effectuons une régression et calculons ensuite (mathématiques) une valeur de p pour exprimer la force, alors quelle est l'interprétation (statistiques) et la valeur de la valeur de p?

Dans le cas des 1000 régressions effectuées par le chercheur 1, le résultat est beaucoup plus faible car ce type de situation se produit lorsque nous n'avons pas vraiment d'indice et que nous explorons simplement les données. La valeur p est juste une indication qu'il peut y avoir quelque chose.

Ainsi, la valeur de p vaut évidemment moins dans la régression effectuée par le chercheur 1. Et si le chercheur 1 ou quelqu'un utilisant les résultats du chercheur 1 souhaite faire quelque chose avec la régression, alors la valeur de p doit être corrigée. (et si vous pensiez que la différence entre le chercheur 1 et le chercheur 2 n'était pas suffisante, pensez à la multitude de façons dont le chercheur 1 peut corriger la valeur de p pour des comparaisons multiples)
Dans le cas de la régression unique effectuée par le chercheur 2, le résultat est une preuve beaucoup plus forte. Mais c'est parce que la régression n'est pas autonome. Nous devons inclure les raisons pour lesquelles le chercheur 2 n'a effectué qu'une seule régression. Cela pourrait être dû au fait qu'il avait de bonnes raisons (supplémentaires) de croire déjà que la régression unique est un bon modèle pour les données.
Le réglage des régressions effectuées par les chercheurs 1 et 2 est très différent, et il n'est pas fréquent que vous rencontriez les deux en même temps pour le même problème. Si tel est le cas, alors soit
- chercheur 2 a été très chanceux
  
  Ce n'est pas si rare, et nous devrions mieux corriger cela lors de l'interprétation de la littérature, ainsi que nous devrions améliorer la publication de l'image globale de la recherche. S'il y a un millier de chercheurs comme le chercheur 2, et que nous ne verrons qu'un seul publier un succès, alors parce que nous n'avons pas vu les échecs des 999 autres chercheurs, nous pouvons croire à tort que nous n'avons pas de cas comme le chercheur 1
- Le chercheur 1 n'était pas si intelligent et a fait une recherche incroyablement superflue pour une régression alors qu'il aurait peut-être su dès le début que cela aurait dû être unique, et il aurait pu effectuer un test plus fort.
  
  Pour les étrangers qui sont plus intelligents que le chercheur 1 (ne se soucient pas des 999 régressions supplémentaires depuis le début) et lisent sur le travail, ils pourraient donner plus de force à la signification des résultats, mais toujours pas aussi fort qu'il le ferait pour le résultat du chercheur 2.
  
  Bien que le chercheur 1 ait pu être trop conservateur lors de la correction de 999 régressions supplémentaires superflues, nous ne pouvons pas ignorer le fait que la recherche a été effectuée dans un vide de connaissances et il est beaucoup plus probable de trouver un chercheur chanceux du type 1 que du type 2.

Une histoire connexe intéressante: en astronomie, alors qu'ils planifiaient un meilleur instrument pour mesurer le fond cosmique avec une plus grande précision, des chercheurs ont soutenu qu'ils ne publiaient que la moitié des données. Cela parce qu'il n'y a qu'un seul coup pour collecter des données. Une fois que toutes les régressions ont été effectuées par des dizaines de chercheurs différents (et en raison de la variation et de la créativité incroyables du théoricien, il y a certainement une certaine adéquation à chaque bosse possible, aléatoire et aléatoire dans les données), il n'y a aucune possibilité d'effectuer une nouvelle expérience à vérifier (c'est-à-dire, sauf si vous êtes capable de générer un tout nouvel univers).

Sextus Empiricus
la source

+1 pour @MartijnWeterings comme je l'ai dit dans mes commentaires, le problème n'était pas bien posé mathématiquement. J'ai eu l'impression que le PO pensait qu'il y a un paradoxe car parce que les deux chercheurs seraient amenés au même choix de modèle mais celui qui fait 1000 régressions est pénalisé en raison de la nécessité d'un problème de comparaison multiple. Je ne vois pas cela du tout comme un paradoxe (pas clair mais je pense que l'OP l'a fait). Vous avez donné une réponse très bien écrite et correcte qui explique aussi intuitivement pourquoi les deux cas sont différents. Je pense que le PO devrait vérifier votre réponse!

Michael R. Chernick

\neq

$\neq$

De plus, je sais que c'est une pratique courante, mais ne trouvez-vous pas troublant de dire qu'un résultat est une "preuve plus solide" que l'autre, alors qu'il s'agit exactement du même modèle et des mêmes données provenant du même processus de génération de données? La seule chose différente est combien un tiers a regardé les données, et cela ne devrait pas avoir de relation avec le DGP lui-même ou vos croyances antérieures sur le problème. Par exemple, l'analyse du chercheur 2 devrait-elle être entachée par l'ignorance du chercheur 1?

statslearner

@MartijnWeterings pourquoi l'intention du chercheur devrait-elle être importante pour l'interprétation des données? Si vous l'utilisez comme une heuristique, comme un profane interprétant un résultat d'expert, c'est très bien. Mais pour un scientifique analysant les données, il semble que l'intention du chercheur ne devrait pas avoir d'incidence sur votre interprétation des preuves.

statslearner

Il semble donc que vous utilisiez le comportement du chercheur comme proxy pour votre précédent. Si le chercheur a effectué 1000 régressions, cela correspondrait à un minimum avant cette hypothèse spécifique. S'il n'en exécutait qu'un, cela correspondrait à un prior élevé sur cette hypothèse. Si vous aviez les deux cas, vous ne savez pas lesquels avant utilisation.

statslearner

Petite histoire: nous n'avons pas assez d'informations pour répondre à votre question car nous ne savons rien des méthodes utilisées ou des données collectées.

Réponse longue ... La vraie question ici est de savoir si chaque chercheur fait:

science rigoureuse
pseudoscience rigoureuse
exploration des données
dragage de données ou piratage informatique

Leurs méthodes détermineront la force de l'interprétation de leurs résultats. En effet, certaines méthodes sont moins saines que d'autres.

Dans une science rigoureuse, nous développons une hypothèse, identifions les variables confusionnelles, développons des contrôles pour les variables en dehors de notre hypothèse, planifions des méthodes de test, planifions notre méthodologie analytique, effectuons des tests / collectons des données, puis analysons les données. (Notez que les méthodes analytiques sont prévues avant le test). C'est le plus rigoureux car il faut accepter des données et des analyses qui ne sont pas d'accord avec l'hypothèse. Il n'est pas acceptable de changer de méthode après coup pour obtenir quelque chose d'intéressant. Toute nouvelle hypothèse issue des résultats doit à nouveau suivre le même processus.

En pseudoscience, nous prenons souvent des données déjà collectées. Ceci est plus difficile à utiliser sur le plan éthique car il est plus facile d'ajouter des biais aux résultats. Cependant, il est toujours possible de suivre la méthode scientifique pour les analystes éthiques. Il peut cependant être difficile de mettre en place des contrôles appropriés et cela doit être recherché et noté.

L'exploration des données n'est pas basée sur la science. Il n'y a pas d'hypothèse spécifique. Il n'y a pas d'évaluation a priori des facteurs de confusion. De plus, il est difficile de revenir en arrière et de refaire l'analyse en utilisant les mêmes données, car les résultats peuvent être entachés par des connaissances ou une modélisation antérieures et il n'y a pas de nouvelles données à utiliser pour la validation. Une expérience scientifique rigoureuse est recommandée pour clarifier les relations possibles trouvées à partir de l'analyse exploratoire.

Le dragage de données ou le piratage informatique est l'endroit où un «analyste» effectue plusieurs tests dans l'espoir d'une réponse inattendue ou inconnue ou manipule les données pour obtenir un résultat. Les résultats peuvent être une simple coïncidence, peuvent être le résultat de variables confondantes, ou peuvent ne pas avoir d'effet ou de puissance significatif.

Il existe des remèdes pour chaque problème, mais ces remèdes doivent être soigneusement évalués.

Adam Sampson
la source

Je pense que vous ajoutez un bruit inutile à la question. Supposons qu'ils aient utilisé les meilleures méthodes disponibles. Les données n'ont pas été collectées par eux, mais par un organisme statistique, de sorte qu'ils n'avaient aucun contrôle sur la collecte des données. La seule différence est de savoir dans quelle mesure chaque chercheur a exploré les données. L'un d'eux a beaucoup exploré, l'autre n'a exploré qu'une seule fois. Les deux obtiennent le même modèle final avec les mêmes données. Doivent-ils faire des déductions différentes? Et comment cela devrait-il affecter votre inférence?

statslearner

Ce n'est pas du bruit supplémentaire. Les mathématiques sont des mathématiques. Si les modèles sont identiques, ils sont identiques. La façon dont vous interprétez les modèles dépend de toutes les autres variables non incluses dans votre problème. Si vous ignorez tous les autres contextes et conceptions ou expériences, la réponse est simple, les deux modèles fonctionnent également mathématiquement et sont scientifiquement faibles.

Adam Sampson