Pourquoi les statistiques robustes (et résistantes) n'ont-elles pas remplacé les techniques classiques?

82

Lors de la résolution de problèmes métiers à l'aide de données, il est courant qu'au moins une hypothèse clé selon laquelle les statistiques classiques sous-goupilles sont invalides est invalide. La plupart du temps, personne ne se soucie de vérifier ces hypothèses pour ne jamais le savoir.

Par exemple, le fait qu'un si grand nombre de métriques Web communes soient "longues" (par rapport à la distribution normale) est à présent si bien documenté que nous prenons cela pour acquis. Autre exemple, les communautés en ligne - même dans les communautés comptant des milliers de membres, il est bien établi que la part la plus importante de contribution / participation à nombre de ces communautés est imputable à un groupe minuscule de «super contributeurs». (Par exemple, il y a quelques mois, juste après l'API SO a été mis à disposition en version bêta, un StackOverflow membre a publié une brève analyse des données recueillies il par l'API, son conclusion-- moins d'un pour cent du compte de membres pour la plupart des l'activité sur SO (probablement en posant des questions et en y répondant), un autre 1 à 2% représentait le reste et la très grande majorité des membres ne fait rien).

Les distributions de ce type - encore une fois plus souvent la règle que l'exception - sont souvent mieux modélisées avec une fonction de densité de loi de puissance. Pour ce type de distributions, même le théorème de la limite centrale est problématique à appliquer.

Donc, étant donné l'abondance de telles populations qui intéressent les analystes, et que les modèles classiques fonctionnent mal sur ces données, et que des méthodes robustes et résistantes existent depuis un certain temps (au moins 20 ans, je crois) - pourquoi ne sont-ils pas utilisés plus souvent? (Je me demande aussi pourquoi je ne les utilise pas plus souvent, mais ce n'est pas vraiment une question pour CrossValidated .)

Oui, je sais qu'il existe des chapitres de manuel entièrement consacrés aux statistiques robustes et que je sais qu'il existe (quelques-uns) paquets R ( robustbase est celui que je connais et utilise), etc.

Et pourtant, étant donné les avantages évidents de ces techniques, elles sont souvent clairement les meilleurs outils pour le travail - pourquoi ne les utilisent-elles pas beaucoup plus souvent ? Ne devrions-nous pas nous attendre à ce que des statistiques robustes (et résistantes) soient utilisées beaucoup plus souvent (peut-être même de manière supposée) par rapport aux analogues classiques?

La seule explication de fond (c’est-à-dire technique) que j’ai entendue est que les techniques robustes (de même que pour les méthodes résistantes) n’ont pas le pouvoir / la sensibilité des techniques classiques. Je ne sais pas si cela est effectivement vrai dans certains cas, mais je sais que ce n'est pas vrai dans de nombreux cas.

Un dernier mot de préemption: oui, je sais que cette question n’a pas une seule réponse manifestement correcte; très peu de questions sur ce site font. De plus, cette question est une véritable enquête; ce n'est pas un prétexte pour faire avancer un point de vue - je n'ai pas de point de vue ici, c'est juste une question pour laquelle j'espère des réponses éclairantes.

doug
la source
12
The Black Swann de Nassim Nicholas Taleb explique pourquoi des modèles simples ont été utilisés dans le monde financier et les dangers qui en ont résulté. Un défaut particulier consiste à assimiler des probabilités très basses à zéro et à appliquer aveuglément la distribution normale à la gestion des risques!
James
9
Les tests reposant sur de nombreuses hypothèses sont plus puissants lorsque ces hypothèses sont satisfaites. Nous pouvons tester la signification de la déviation en supposant que les observations sont gaussiennes, ce qui donne une moyenne statistique. Un ensemble d'hypothèses moins restrictives nous incite à utiliser la médiane. Nous pouvons aller plus loin et supposer que les observations sont corrélées pour obtenir encore plus de robustesse. Mais chaque étape réduit la puissance de notre test, et si nous ne faisons aucune hypothèse, notre test est inutile. Des tests robustes font implicitement des hypothèses sur les données et ne sont meilleurs que les tests classiques uniquement lorsque ces hypothèses correspondent le mieux à la réalité
Yaroslav Bulatov

Réponses:

69

Les chercheurs veulent de petites valeurs p, et vous pouvez obtenir des valeurs p plus petites si vous utilisez des méthodes reposant sur des hypothèses de répartition plus solides. En d'autres termes, des méthodes non robustes vous permettent de publier plus d'articles. Bien sûr, un plus grand nombre de ces articles peuvent être des faux positifs, mais une publication est une publication. C'est une explication cynique, mais parfois valable.

John D. Cook
la source
4
"parfois" est un euphémisme ... la logique des auteurs n'est pas souvent aussi directe, mais le scénario relance / récompense est tel que les gens le feront comme une question de conditionnement
John
2
Les chercheurs ne sont pas malhonnêtes, mais agissent par ignorance. Ils ne comprennent pas ce que signifient les statistiques ni les hypothèses dont ils ont besoin, mais comme vous l'avez dit, ils comprennent clairement le stimulus / la récompense: p> 0,05 => pas de publication.
John D. Cook
10
Vous devez également présenter quelque chose que ceux "au pouvoir" (décideurs, superviseurs, réviseurs) comprennent. Il faut donc que ce soit dans la langue commune qui évolue assez lentement, car ces personnes ont tendance à être plus âgées et plus résistantes au changement, en grande partie parce que cela pourrait invalider leur carrière jusque-là!
James
12
Bon point. "Je comprends les valeurs-p. Donnez-moi juste une valeur-p." Ironiquement, ils ne comprennent probablement pas les valeurs-p, mais c'est une autre affaire.
John D. Cook
2
Je ne crois pas que cela soit catégoriquement vrai. Au moins, j'ai entendu dire que les non-paramétriques modernes sacrifiaient très peu de pouvoir, voire aucun. D'après les informations dont je dispose, la perte de puissance est plus prononcée dans les tests impliquant des transformations de rangs, qui sont rarement omniprésents parmi les méthodes robustes.
Nick Stauner
42

Ainsi, les «modèles classiques» (quels qu'ils soient - je suppose que vous voulez dire quelque chose comme des modèles simples enseignés dans des manuels et estimés par ML) échouent dans certains ensembles de données du monde réel, voire dans de nombreux autres.

Si un modèle échoue, il existe deux approches de base pour le corriger:

  1. Faites moins d'hypothèses (moins de modèle)
  2. Faire plus d'hypothèses (plus de modèle)

Les méthodes de statistiques robustes, de quasi-vraisemblance et d'EEG prennent la première approche en modifiant la stratégie d'estimation en une stratégie où le modèle ne s'applique pas à tous les points de données (robuste) ou n'a pas besoin de caractériser tous les aspects des données (QL et GEE).

L'alternative consiste à essayer de créer un modèle qui modélise explicitement la source des points de données contaminants ou les aspects du modèle d'origine qui semblent faux, tout en maintenant la méthode d'estimation identique.

Certains préfèrent intuitivement le premier (il est particulièrement populaire en économie), et certains préfèrent intuitivement le second (il est particulièrement populaire parmi les bayésiens, qui ont tendance à être plus heureux avec des modèles plus complexes, en particulier une fois qu'ils réalisent qu'ils utiliseront des outils de simulation. inférence quand même).

Les hypothèses de distribution à la queue, utilisant par exemple le binôme négatif plutôt que le poisson ou t plutôt que la normale, appartiennent à la deuxième stratégie. La plupart des choses étiquetées «statistiques robustes» appartiennent à la première stratégie.

Concrètement, dériver des estimateurs pour la première stratégie pour des problèmes réalistes complexes semble être assez difficile. Ce n’est pas une raison pour ne pas le faire, mais c’est peut-être une explication de la raison pour laquelle cela n’est pas fait très souvent.

conjuguéprior
la source
4
+1 Très bonne explication. Je pense également que certaines méthodes "robustes" sont plutôt ad hoc (moyens tronqués), et que "robuste" est lié à un aspect particulier d'une méthode et n'est pas une qualité générale, mais que beaucoup de gens interprètent ce terme comme "robuste". ne pas avoir à me soucier de mes données, car ma méthode est robuste ".
Wayne
Très bonne réponse. Cela me dérange que tant de réponses se concentrent sur la difficulté de comprendre des statistiques robustes ou sur les incitations à ignorer la violation d'hypothèses. Ils ignorent les gens qui savent qu'il y a des cas où des statistiques robustes sont nécessaires ou non.
Kenji
29

Je suggérerais que c'est un retard dans l'enseignement. La plupart des gens apprennent des statistiques au collège ou à l'université. Si les statistiques ne sont pas votre premier diplôme et que vous avez obtenu un diplôme en mathématiques ou en informatique, vous ne couvrez probablement que les modules de statistiques fondamentales:

  1. Probabilité
  2. Tests d'hypothèses
  3. Régression

Cela signifie que lorsque vous rencontrez un problème, vous essayez d'utiliser ce que vous savez pour le résoudre.

  • Les données ne sont pas normales - prenez des journaux.
  • Les données ont des valeurs aberrantes - supprimez-les.

À moins de tomber sur quelque chose d'autre, il est difficile de faire mieux. C'est vraiment difficile d'utiliser Google pour trouver quelque chose si vous ne savez pas comment ça s'appelle!

Je pense qu'avec toutes les techniques, il faudra un certain temps avant que les techniques les plus récentes filtrent. Combien de temps a-t-il fallu aux tests d'hypothèses standard pour s'inscrire dans un programme standard de statistiques?

BTW, avec un diplôme en statistiques, il y aura toujours un retard dans l'enseignement - juste un plus court!

csgillespie
la source
4
Mais cela soulève un problème pédagogique intéressant, du moins en psychologie, car, autant que je sache, la plupart des livres de statistiques introductifs utilisés dans mon domaine ne traitent pas vraiment de mesures robustes, sauf de manière marginale.
russellpierce
3
C'est très vrai et, en psychologie également, il existe une confusion gênante entre non paramétrique et non normal, ce qui semble entraver la compréhension.
richiemorrisroe
2
Certains d’entre nous, les psychologues, sommes confus à propos de tout ce qui est statistique! :)
Nick Stauner Le
21

Toute personne formée à l'analyse de données statistiques à un niveau raisonnable utilise régulièrement les concepts de statistiques robustes. La plupart des chercheurs en savent assez pour rechercher les valeurs aberrantes et les erreurs d’enregistrement des données; La politique d'élimination des points de données suspects remonte au 19ème siècle avec Lord Rayleigh, GG Stokes et d'autres de leur âge. Si la question est:

Pourquoi les chercheurs n'utilisent-ils pas les méthodes les plus modernes pour calculer les estimations d'emplacement, d'échelle, de régression, etc.?

la réponse est donnée ci-dessus - les méthodes ont été largement développées au cours des 25 dernières années, par exemple de 1985 à 2010. Le retard pris pour apprendre de nouvelles méthodes tient compte de l'inertie aggravée par le "mythe" selon lequel il n'y a rien de mal à aveuglément en utilisant des méthodes classiques. John Tukey précise que les méthodes robustes / résistantes que vous utilisez sont sans importance. L'important, c'est que vous en utilisiez. Il est parfaitement approprié d’utiliser régulièrement des méthodes classiques et des méthodes robustes / résistantes. Ne vous inquiétez pas quand elles diffèrent suffisamment pour avoir de l’importance. Mais quand ils diffèrent , vous devriez penser dur .

Si au lieu de cela, la question est:

Pourquoi les chercheurs ne s'arrêtent-ils pas pour poser des questions sur leurs données, au lieu d'appliquer aveuglément des estimations extrêmement instables?

alors la réponse se résume vraiment à la formation. Il y a beaucoup trop de chercheurs qui n'ont jamais été formés à la statistique correctement, ce qui se résume par le fait que l'on se fie généralement aux valeurs-p pour qualifier de «signification statistique» fondamentale et globale.

@Kwak: Les estimations de Huber des années 1970 sont robustes, au sens classique du terme: elles résistent aux valeurs aberrantes. De plus, les estimateurs redescendants datent bien avant les années 1980: l’étude de robustesse de Princeton (1971) incluait l’estimation bis-carrée de la localisation, une estimation redescendante.

Wesley Burr
la source
2
projecteuclid.org/… Document librement disponible rédigé par Peter Huber sur les contributions de John Tukey aux statistiques fiables. Lecture relativement facile, lumière sur les formules.
Wesley Burr
20

Les statistiques sont un outil pour les chercheurs qui ne s'intéressent pas aux statistiques et qui s'en moquent.

Une fois, j'ai essayé d'aider avec un article de Medicine que mon ex-femme était co-auteur. J'ai écrit plusieurs pages décrivant les données, expliquant ce qui avait été suggéré, pourquoi certaines observations avaient été exclues de l'étude ... et la chercheuse principale, un médecin, a tout jeté à la poubelle et a demandé à quelqu'un de calculer une valeur p, (et à peu près tous ceux qui liraient l'article) se souciaient.

Carlos Accioly
la source
12

Je donne une réponse dans deux directions:

  1. les choses qui sont robustes ne sont pas nécessairement étiquetées robustes. Si vous croyez que la robustesse contre tout existe, alors vous êtes naïf.
  2. Les approches statistiques laissant de côté le problème de la robustesse ne sont parfois pas adaptées au monde réel mais sont souvent plus utiles (en tant que concept) qu'un algorithme qui ressemble à de la cuisine.

développement

Premièrement, je pense qu’il existe de nombreuses bonnes approches en statistique (vous les trouverez dans des paquetages R pas nécessairement avec robustes mentionnés quelque part), qui sont naturellement robustes et testés sur des données réelles et le fait que vous ne trouviez pas d’algorithme avec "robust "mentionné quelque part ne signifie pas qu'il n'est pas robuste. Quoi qu'il en soit, si vous pensez qu'être robuste signifie être universel, vous ne trouverez jamais de procédure robuste (pas de repas gratuit). Vous devez avoir des connaissances / une expertise sur les données que vous analysez afin d'utiliser un outil adapté ou de créer un modèle adapté.

En revanche, certaines approches statistiques ne sont pas robustes car elles sont dédiées à un seul type de modèle. Je pense qu'il est bon parfois de travailler dans un laboratoire pour essayer de comprendre les choses. Il est également bon de traiter les problèmes séparément afin de comprendre à quel problème se trouve notre solution ... voilà comment fonctionnent les mathématiciens. L'exemple du modèle gaussien elocant: est tellement critiqué parce que l'hypothèse gaussienne n'est jamais remplie mais a apporté 75% des idées utilisées pratiquement en statistique aujourd'hui. Pensez-vous vraiment que tout cela consiste à écrire du papier pour suivre la règle de publication ou périr (ce que je n'aime pas, je suis d'accord)?

robin girard
la source
11

En tant que personne qui a appris un peu de statistiques pour mes propres recherches, je suppose que les raisons sont pédagogiques et inertielles.

J'ai observé dans mon propre domaine que l'ordre dans lequel les sujets sont enseignés reflète l'histoire du domaine. Les idées qui sont venues en premier sont enseignées en premier, et ainsi de suite. Pour les personnes qui piochent dans les statistiques pour un enseignement superficiel, cela signifie qu'elles vont apprendre les statistiques classiques en premier et probablement en dernier lieu. Ensuite, même s’ils en apprennent davantage, les éléments classiques avec lesquels coller avec eux sont meilleurs en raison des effets de primauté.

En outre, tout le monde sait ce qu'est un test t à deux échantillons. Moins que tout le monde sait ce qu'est un test de Mann-Whitney ou de Wilcoxon Rank Sum. Cela signifie que je dois déployer un peu d'énergie pour expliquer ce qu'est mon test robuste, au lieu de n'en avoir aucun avec un test classique. De telles conditions feront évidemment en sorte que moins de personnes utilisent des méthodes robustes qu’elles ne le devraient.

JoFrhwld
la source
9

Wooldridge "Econométrie d'introduction - Une approche moderne" 2E p.261.

Si les erreurs-types robustes en hétéroskédasticité sont valables plus souvent que les erreurs-types habituelles des MCO, pourquoi ne nous préoccupons-nous pas des erreurs-types habituelles? ... L'une des raisons pour lesquelles elles sont encore utilisées dans les travaux en coupe est que et les erreurs sont normalement distribuées, alors les statistiques t habituelles ont des distributions t exactes, quelle que soit la taille de l’échantillon. Les erreurs types robustes et les statistiques robustes t ne sont justifiées que lorsque la taille de l'échantillon devient grande. Avec des échantillons de petite taille, les statistiques robustes t peuvent avoir des distributions qui ne sont pas très proches de la distribution t, ce qui pourrait nous écarter de notre inférence. Pour les échantillons de grande taille, nous pouvons justifier de ne déclarer que les erreurs types robustes en hétéroskédasticité dans les applications transversales.


la source
2
Mauvaise nouvelle ici: pan.oxfordjournals.org/content/23/2/159
conjugateprior
7

Bien qu'elles ne soient pas mutuellement exclusives, je pense que la popularité croissante des statistiques bayésiennes en fait partie. Les statistiques bayésiennes peuvent atteindre beaucoup des mêmes objectifs grâce aux a priori et à la moyenne des modèles, et tendent à être un peu plus robustes dans la pratique.

Joe
la source
6

Je ne suis pas statisticien, mon expérience en statistique est assez limitée, j'utilise uniquement des statistiques robustes en vision par ordinateur / reconstruction 3d / estimation de la pose. Voici mon point de vue sur le problème du point de vue de l'utilisateur:

Premièrement, les statistiques robustes sont très utilisées en ingénierie et en science sans être qualifiées de "statistiques robustes". Beaucoup de gens l'utilisent de manière intuitive, en s'adaptant au processus d'adaptation d'une méthode spécifique à un problème du monde réel. Par exemple, les moindres carrés répétés itératifs et les moyennes tronquées / moindres carrés tronqués utilisés couramment, que l'utilisateur ne sait pas qu'ils ont utilisé des statistiques robustes, permettent simplement à la méthode de fonctionner pour des données réelles et non synthétiques.

Deuxièmement, les statistiques "intuitives" et les statistiques robustes conscientes sont pratiquement toujours utilisées dans le cas où les résultats sont vérifiables ou dans lesquels il existe des mesures d'erreur clairement visibles. Si les résultats obtenus avec une distribution normale sont évidemment non valides ou erronés, les utilisateurs commencent à bricoler des poids, à rogner, à échantillonner, à lire du papier et à utiliser des estimateurs robustes, qu'ils connaissent le terme ou non. D'autre part, si le résultat final de la recherche ne contient que des graphiques et des diagrammes, et qu'il n'y a pas d'insensibilité pour vérifier les résultats, ou si les statistiques normales produisent des résultats suffisants - les gens ne se dérangent pas.

Enfin, sur l’utilité des statistiques robustes en tant que théorie, bien que la théorie elle-même soit très intéressante, elle ne donne pas souvent d’avantages pratiques. La plupart des estimateurs robustes sont assez triviaux et intuitifs, souvent réinventés sans aucune connaissance statistique. La théorie, telle que l’estimation du point de rupture, l’asymptotique, la profondeur des données, l’hétéroscience, etc., permet une compréhension plus approfondie des données, mais dans la plupart des cas, elle est tout simplement inutile. Une grande exception est l'intersection de statistiques robustes et de la détection compressive, qui produisent de nouvelles méthodes pratiques telles que le "croisement et le bouquet"

miroir2image
la source
5

Ma connaissance des estimateurs robustes ne concerne que les erreurs-types robustes pour les paramètres de régression; mon commentaire ne portera que sur ceux-ci. Je suggère aux gens de lire cet article,

Sur le soi-disant "Huber Sandwich Estimator" et "Robust Standard Errors" de: Freedman, A. David The Statistician, vol. 60, n ° 4. (novembre 2006), p. 299-302. doi: 10.1198 / 000313006X152207 ( version PDF )

Ce qui me préoccupe particulièrement dans ces approches, ce n’est pas qu’elles ont tort, elles détournent simplement l’attention de problèmes plus graves. Je suis donc entièrement d'accord avec la réponse de Robin Girard et sa mention de "pas de repas gratuit".

Andy W
la source
3

Le calcul et la probabilité nécessaires pour des statistiques robustes sont (généralement) plus difficiles; ainsi (a) il y a moins de théorie et (b) il est plus difficile à saisir.

JohnRos
la source
2

Je suis surpris de voir que le théorème de Gauss-Markov n'est pas mentionné dans cette longue liste de réponses, afaics:

Dans un modèle linéaire avec des erreurs sphériques (qui suppose en chemin une hypothèse d'absence de valeurs aberrantes, via une variance d'erreur finie), la méthode MLS est efficace dans une classe d'estimateurs linéaires non biaisés: il existe des conditions (restrictives, bien sûr) dans lesquelles " vous ne pouvez pas faire mieux que OLS ".

Je ne dis pas que cela devrait justifier l’utilisation de l’OLS presque tout le temps, mais cela contribue certainement à expliquer pourquoi (d’autant plus que c’est une bonne excuse pour se concentrer autant sur l’OLS dans l’enseignement).

Christoph Hanck
la source
Eh bien, oui, mais cela suppose que minimiser la variance est le critère pertinent, et avec des queues épaisses, il se peut que ce ne soit pas le cas!
kjetil b halvorsen
1
Sûr. Je voulais juste ajouter ce qui, à mon avis, est peut-être la raison la plus connue de penser que les MLS sont une technique utile parmi les raisons compréhensibles pour lesquelles les techniques robustes ne l’ont pas remplacée : il existe des cas dans lesquels vous ne devriez pas le remplacer.
Christoph Hanck
0

Je pense que des statistiques fiables ne sont jamais suffisantes, c’est-à-dire qu’elles doivent ignorer certaines informations relatives à la distribution. Et je soupçonne que ce n'est pas toujours une bonne chose. En d'autres termes, il y a un compromis entre robustesse et perte d'informations.

Par exemple, la médiane est robuste car (contrairement à la moyenne), elle n’utilise les informations que pour environ la moitié des éléments (en cas discret):

median({1,2,3,4,5})=3=median({0.1,0.2,3,4000,5000})
Ayorgo
la source
1
Voir stats.stackexchange.com/questions/74113/… pour une situation où la médiane est très fragile et la moyenne très bien comportée.
Nick Cox