Pourquoi devrions-nous utiliser des erreurs t au lieu d'erreurs normales?

30

Dans ce billet de blog d'Andrew Gelman, il y a le passage suivant:

Les modèles bayésiens d'il y a 50 ans semblent désespérément simples (sauf, bien sûr, pour des problèmes simples), et je m'attends à ce que les modèles bayésiens d'aujourd'hui semblent désespérément simples, dans 50 ans. (Juste pour un exemple simple: nous devrions probablement utiliser systématiquement t au lieu d'erreurs normales à peu près partout, mais nous ne le faisons pas encore, par familiarité, habitude et commodité mathématique. Ce peuvent être de bonnes raisons, en science comme en politique, le conservatisme a de nombreux bons arguments en sa faveur - mais je pense qu'en fin de compte, à mesure que nous nous familiariserons avec des modèles plus compliqués, nous irons dans cette direction.)

Pourquoi devrions-nous "utiliser systématiquement t au lieu d'erreurs normales un peu partout"?

Patate
la source

Réponses:

40

Parce que supposer des erreurs normales revient en fait à supposer que de grosses erreurs ne se produisent pas! La distribution normale a des queues si légères, que les erreurs en dehors de écarts-types ont une très faible probabilité, des erreurs en dehors de ± 6 écarts-types sont effectivement impossibles. En pratique, cette hypothèse est rarement vraie. Lorsque nous analysons de petits ensembles de données bien rangés à partir d'expériences bien conçues, cela pourrait ne pas avoir beaucoup d'importance si nous effectuons une bonne analyse des résidus. Avec des données de moindre qualité, cela pourrait avoir beaucoup plus d'importance.±3±6

Lorsque l'on utilise des méthodes basées sur la vraisemblance (ou bayésiennes), l'effet de cette normalité (comme dit ci-dessus, c'est effectivement l'hypothèse «pas de grosses erreurs»!) Est de rendre l'inférence très peu robuste. Les résultats de l'analyse sont trop fortement influencés par les grosses erreurs! Il doit en être ainsi, car en supposant qu'il n'y a "pas de grandes erreurs" , nos méthodes doivent interpréter les grandes erreurs comme de petites erreurs, et cela ne peut se produire qu'en déplaçant le paramètre de valeur moyenne pour réduire toutes les erreurs. Une façon d'éviter cela consiste à utiliser des «méthodes robustes», voir http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

Mais Andrew Gelman n'ira pas pour cela, car les méthodes robustes sont généralement présentées de manière très non bayésienne. L'utilisation d'erreurs réparties en t dans les modèles de vraisemblance / bayésiens est une manière différente d'obtenir des méthodes robustes, car la distribution en a des queues plus lourdes que la normale, ce qui permet une plus grande proportion d'erreurs importantes. Le paramètre du nombre de degrés de liberté doit être fixé à l'avance, non estimé à partir des données, car une telle estimation détruira les propriétés de robustesse de la méthode (*) (c'est aussi un problème très difficile, la fonction de vraisemblance pour ν , le nombre degrés de liberté, peuvent être illimités, ce qui conduit à des estimateurs très inefficaces (voire incohérents).tν

Si, par exemple, vous pensez (avez peur) que jusqu'à 1 observation sur 10 pourrait être de "grosses erreurs" (au-dessus de 3 sd), alors vous pourriez utiliser une distribution avec 2 degrés de liberté, augmentant ce nombre si le la proportion d'erreurs importantes serait plus faible.t

Je dois noter que ce que j'ai dit ci-dessus concerne les modèles avec des erreurs indépendantes réparties en . Il y a également eu des propositions de distribution t multivariée (qui n'est pas indépendante) comme distribution d'erreur. Cette proposition est fortement critiquée dans l'article "Les nouveaux vêtements de l'empereur: une critique du modèle de régression multivariée t " par TS Breusch, JC Robertson et AH Welsh, dans Statistica Neerlandica (1997) Vol. 51, nr. 3, pp. 269-286, où ils montrent que la distribution d' erreur t multivariée est empiriquement impossible à distinguer de la normale. Mais cette critique n'affecte pas le modèle t indépendant . ttttt

(*) Une référence indiquant cela est MASS de Venables & Ripley --- Statistiques appliquées modernes avec S (à la page 110 de la 4e édition).

kjetil b halvorsen
la source
3
νν2tνν>2
2
Grande réponse et commentaire. Mais: 1. Gelman défend une procédure standard qui sera meilleure que de supposer des erreurs normales. Donc, nous devons comparer la simple (erreurs normales) avec la distribution T pour les erreurs. 2. Dans la question connexe liée par user603, nous devons noter que si nous avons des informations préalables, nous devons les utiliser. Bayes excelle avec l'information préalable. Et dans l'exmaple, nous avons des informations préalables qui ne sont pas utilisées. 3. Avec les contrôles prédictifs postérieurs, nous sommes d know that the model proposed isnassez bons.
Manoel Galdino
1
t1
1
Non, la distribution t est le seul choix car la distribution t est la prédiction postérieure du modèle gaussien. Gelman ne choisissait pas simplement la distribution t au hasard.
Neil G
1
Voir: Murphy, Kevin P. "Analyse bayésienne conjuguée de la distribution gaussienne." def 1.2σ2 (2007): 16. Il dérive la distribution t comme prédictive postérieure du modèle gaussien. Il ne s'agit pas simplement d'un cas où le modélisateur a choisi une distribution arbitraire à queue lourde.
Neil G
10

Il ne s'agit pas seulement de «queues plus lourdes» - il existe de nombreuses distributions en forme de cloche et à queues lourdes.

La distribution T est la prédiction postérieure du modèle gaussien. Si vous faites une hypothèse gaussienne, mais avez des preuves finies, le modèle résultant fait nécessairement des prédictions distribuées à échelle non centrale. À la limite, comme la quantité de preuves que vous avez va à l'infini, vous vous retrouvez avec des prédictions gaussiennes puisque la limite de la distribution t est gaussienne.

Pourquoi cela arrive-t-il? Parce qu'avec une quantité limitée de preuves, il y a une incertitude dans les paramètres de votre modèle. Dans le cas du modèle gaussien, l'incertitude dans la moyenne ne ferait qu'augmenter la variance (c.-à-d. Que la prédiction postérieure d'un gaussien avec une variance connue est encore gaussienne). Mais l'incertitude sur la variance est ce qui cause les queues lourdes. Si le modèle est entraîné avec des preuves illimitées, il n'y a plus d'incertitude dans la variance (ou la moyenne) et vous pouvez utiliser votre modèle pour faire des prédictions gaussiennes.

Cet argument s'applique à un modèle gaussien. Elle s'applique également à un paramètre inféré dont les probabilités sont gaussiennes. Étant donné les données finies, l'incertitude sur le paramètre est distribuée en t. Partout où il existe des hypothèses normales (avec une moyenne et une variance inconnues) et des données finies, il existe des prédicteurs postérieurs distribués en t.

Il existe des distributions prédictives postérieures similaires pour tous les modèles bayésiens. Gelman suggère que nous devrions les utiliser. Ses préoccupations seraient atténuées par des preuves suffisantes.

Neil G
la source
Pouvez-vous sauvegarder cela avec quelques références?
kjetil b halvorsen
2
@kjetilbhalvorsen: Murphy, Kevin P. "Analyse bayésienne conjuguée de la distribution gaussienne." def 1.2σ2 (2007): 16.
Neil G
Point de vue intéressant, je n'avais jamais entendu cela auparavant. Les erreurs de distribution t conduisent-elles également à des prédictions de distribution t? C'est pour moi un argument en faveur de la poursuite de l'utilisation des erreurs gaussiennes. Sauf si vous vous attendez à des valeurs aberrantes conditionnelles , le modèle d'erreur conditionnelle n'a pas besoin de les prendre en compte. Cela revient à supposer que tous les éléments périphériques proviennent des valeurs périphériques des prédicteurs. Je ne pense pas que cette hypothèse soit si mauvaise dans bien des cas. Et pour des raisons purement esthétiques, je ne vois pas pourquoi les distributions conditionnelles et marginales doivent correspondre
shadowtalker
@ssdecontrol "Les erreurs t-distribuées conduisent-elles également à des prédictions t-distribuées?" Je ne sais pas, mais je ne pense pas. Pour moi, cette perspective est très utile pour une compréhension intuitive de la raison pour laquelle le test t fonctionne.
Neil G