Tests d'hypothèses Bootstrap vs permutation

37

Il existe plusieurs techniques de ré - échantillonnage populaires, qui sont souvent utilisés dans la pratique, comme bootstrapping, test de permutation, jackknife, etc. Il existe de nombreux articles et livres traitent de ces techniques, par exemple Philippe I Bon (2010) Permutation, Parametric et Tests Bootstrap des hypothèses

Ma question est la suivante: quelle technique de ré-échantillonnage a gagné le plus de popularité et est plus facile à mettre en œuvre? Tests d'amorçage ou de permutation?

Tu.2
la source
8
La popularité n'est pas une bonne mesure de la qualité. A en juger par le nombre de citations (clients), McDonalds est un restaurant beaucoup plus populaire (meilleur?) Que tout établissement 3 étoiles Michelin. Allez-vous amener votre prochain conférencier chez McDonalds, alors?
StasK

Réponses:

68

Les deux sont populaires et utiles, mais principalement pour des utilisations différentes. Le test de permutation est le meilleur pour tester les hypothèses et le bootstrap est le meilleur pour estimer les intervalles de confiance.

Les tests de permutation testent une hypothèse nulle spécifique d’échangeabilité, c’est-à-dire que seul l’échantillonnage aléatoire / la randomisation explique la différence observée. C'est le cas habituel pour des choses comme les tests t et l'ANOVA. Il peut également être étendu à des éléments tels que les séries chronologiques (hypothèse nulle selon laquelle il n'y a pas de corrélation en série) ou la régression (hypothèse nulle quant à l'absence de relation). Les tests de permutation peuvent être utilisés pour créer des intervalles de confiance, mais cela nécessite beaucoup plus d'hypothèses, qui peuvent être raisonnables ou non (d'autres méthodes sont donc préférées). Le test Mann-Whitney / Wilcoxon est en fait un cas spécial de test de permutation, il est donc beaucoup plus populaire que certains ne le réalisent.

Le bootstrap estime la variabilité du processus d'échantillonnage et fonctionne bien pour estimer les intervalles de confiance. Vous pouvez faire un test d'hypothèse de cette façon, mais il a tendance à être moins puissant que le test de permutation pour les cas que les hypothèses de test de permutation retiennent.

Greg Snow
la source
2
Merci d'avoir répondu. Pourquoi l'intervalle de confiance bootstrap est-il moins puissant que le test de permutation? Combien Peut-on caractériser les situations dans lesquelles il est nettement moins puissant? Il semble avantageux de pouvoir afficher un intervalle de confiance. Le bootstrap semble donc plus utile.
Défrankow
2
@dfrankow, les 2 méthodes utilisent différentes hypothèses. Pour les grands échantillons et les différences, tout ira bien, mais avec des échantillons / différences plus petits, le test de permutation est plus susceptible de trouver des différences et d'être approprié. Voir cette réponse: stats.stackexchange.com/questions/112147/… pour des exemples où la taille du bootstrap n’est même pas correcte (le nombre de rejets est trop élevé lorsque la valeur null est vraie).
Greg Snow
Un test de permutation n'est-il pas une variante de l'amorçage?
Vicki B
Les tests @VickiB, Bootstrapping et Permutation sont souvent mentionnés ensemble, mais ils permettent de booster des échantillons avec des échantillons de remplacement et de permutation sans remplacement, ce qui fait une différence dans ce qu'ils peuvent faire et dans quelle puissance ils sont.
Greg Snow
12

Si vous utilisez R, ils sont tous faciles à implémenter. Voir, par exemple, http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html

Je dirais qu'il existe une troisième technique majeure: la validation croisée. Ceci est utilisé pour tester le pouvoir prédictif des modèles.

Patrick Burns
la source
8

Ma question est la suivante: quelle technique de ré-échantillonnage a gagné le plus de popularité
? Les tests Bootstrapping ou Permutation?

  1. L'amorçage consiste principalement à générer des erreurs-types ou des intervalles de confiance de grand échantillon. les tests de permutation, comme son nom l'indique, concernent principalement les tests. (Chacun peut être adapté pour être utilisé pour l'autre tâche cependant.)

  2. Comment pourrions-nous juger de la popularité? Si nous examinons des domaines tels que la psychologie et l'éducation, nous pouvons trouver de nombreuses utilisations de tests basés sur les rangs tels que Wilcoxon-Mann-Whitney, le test de rangs signé, les tests de corrélation de rangs, etc. Ce sont tous des tests de permutation (en revanche, il existe de nombreux cas où des tests de permutation des données d'origine pourraient être utilisés à la place mais ne le sont généralement pas). Dans certains autres domaines d'application, les tests de permutation seraient rarement utilisés, mais la popularité variable d'un domaine d'application à l'autre en dit parfois plus sur la culture locale de chaque région que sur son utilité.

plus facile à mettre en œuvre?

Dans de nombreux cas - en particulier les plus simples - ils sont presque aussi faciles à utiliser - c'est essentiellement la différence entre échantillonnage avec remplacement et échantillonnage sans remplacement.

Dans certains cas plus complexes, l’amorçage est plus facile à faire car (vu du point de vue des tests), il fonctionne sous l’alternative plutôt que de façon nulle (au moins des implémentations naïves le seront - le faire pour qu’il fonctionne bien peut être beaucoup plus compliqué).

Les tests de permutation exacts peuvent être difficiles dans les cas les plus complexes, car une quantité échangeable appropriée peut ne pas être observable - souvent, une quantité presque échangeable peut être substituée au prix de l'exactitude (et de l'absence totale de distribution).

Bootstrapping abandonne essentiellement le critère d’exactitude correspondant (couverture exacte des intervalles) dès le départ, et se concentre plutôt sur l’obtention d’une couverture relativement bonne sur de grands échantillons (parfois avec moins de succès qu'on ne pourrait le comprendre; si vous n'avez pas coché, supposez que votre bootstrap donne la couverture que vous attendez).

Les tests de permutation peuvent fonctionner sur de petits échantillons (bien que le choix limité de niveaux de signification puisse parfois poser problème avec de très petits échantillons), alors que le bootstrap est une technique utilisant un grand échantillon (si vous l'utilisez avec de petits échantillons, les résultats risquent de ne pas être très utile).

Je les vois rarement comme des concurrents sur le même problème et je les ai utilisés pour résoudre des problèmes réels (différents) - il est souvent naturel de choisir.

Il y a des avantages pour les deux, mais ni dans un panacaea. Si vous espérez réduire les efforts d'apprentissage en vous concentrant sur l'un d'eux, vous risquez d'être déçu - les deux sont des éléments essentiels de la boîte à outils de rééchantillonnage.

Glen_b -Reinstate Monica
la source
1
Pourriez-vous préciser ce qu'une " quantité échangeable appropriée peut être non observable " signifie? (+1 évidemment)
usεr11852 dit Rétablir Monic
1
Essayez de faire un test de permutation dans une expérience avec deux facteurs et une covariable (ou envisagez simplement une régression avec plusieurs prédicteurs). Avec une indépendance totale et une absence totale d'effet, les observations sont interchangeables et vous pouvez donc tester cette hypothèse, mais vous ne disposez pas d'un moyen de construire un test de permutation des facteurs uniquement (puisque vous vous attendez à ce que la covariable ait un effet). et tester sa nullité n’est pas intéressant); De même, vous ne pouvez pas construire un test de permutation d'un seul des deux facteurs. ... suite
Glen_b -Reinstate Monica
1
ctd ... Il y a une quantité interchangeable évidente si vous connaissez les coefficients de population que vous ne testez pas (et que les erreurs seraient toujours interchangeables), mais vous ne pouvez pas observer ces choses. Si vous substituez des estimations des coefficients ou des erreurs (c'est-à-dire les résidus), les quantités sont échangeables plus longtemps. Cependant, dans certaines conditions particulières, ils seraient à peu près interchangeables (certaines personnes recommandent de le faire précisément) ... et si vous le faites, vous obtiendrez quelque chose qui ressemblera à un bootstrap mais avec un échantillonnage sans remplacement au lieu d'un échantillonnage avec remplacement.
Glen_b -Reinstate Monica
Merci; Je vais y réfléchir attentivement. Je soupçonne quelque chose de plus profond pour moi d'apprendre ici. :)
usεr11852 dit Rétablir Monic
1
@ NULL pour une raison quelconque, j'ai raté votre demande de référence. Pour un point de départ, certaines des références ici devraient faire: davegiles.blogspot.com/2019/04/…
Glen_b -Reinstate Monica