Parce que supposer des erreurs normales revient en fait à supposer que de grosses erreurs ne se produisent pas! La distribution normale a des queues si légères, que les erreurs en dehors de écarts-types ont une très faible probabilité, des erreurs en dehors de ± 6 écarts-types sont effectivement impossibles. En pratique, cette hypothèse est rarement vraie. Lorsque nous analysons de petits ensembles de données bien rangés à partir d'expériences bien conçues, cela pourrait ne pas avoir beaucoup d'importance si nous effectuons une bonne analyse des résidus. Avec des données de moindre qualité, cela pourrait avoir beaucoup plus d'importance.±3±6
Lorsque l'on utilise des méthodes basées sur la vraisemblance (ou bayésiennes), l'effet de cette normalité (comme dit ci-dessus, c'est effectivement l'hypothèse «pas de grosses erreurs»!) Est de rendre l'inférence très peu robuste. Les résultats de l'analyse sont trop fortement influencés par les grosses erreurs! Il doit en être ainsi, car en supposant qu'il n'y a "pas de grandes erreurs" , nos méthodes doivent interpréter les grandes erreurs comme de petites erreurs, et cela ne peut se produire qu'en déplaçant le paramètre de valeur moyenne pour réduire toutes les erreurs. Une façon d'éviter cela consiste à utiliser des «méthodes robustes», voir http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf
Mais Andrew Gelman n'ira pas pour cela, car les méthodes robustes sont généralement présentées de manière très non bayésienne. L'utilisation d'erreurs réparties en t dans les modèles de vraisemblance / bayésiens est une manière différente d'obtenir des méthodes robustes, car la distribution en a des queues plus lourdes que la normale, ce qui permet une plus grande proportion d'erreurs importantes. Le paramètre du nombre de degrés de liberté doit être fixé à l'avance, non estimé à partir des données, car une telle estimation détruira les propriétés de robustesse de la méthode (*) (c'est aussi un problème très difficile, la fonction de vraisemblance pour ν , le nombre degrés de liberté, peuvent être illimités, ce qui conduit à des estimateurs très inefficaces (voire incohérents).tν
Si, par exemple, vous pensez (avez peur) que jusqu'à 1 observation sur 10 pourrait être de "grosses erreurs" (au-dessus de 3 sd), alors vous pourriez utiliser une distribution avec 2 degrés de liberté, augmentant ce nombre si le la proportion d'erreurs importantes serait plus faible.t
Je dois noter que ce que j'ai dit ci-dessus concerne les modèles avec des erreurs indépendantes réparties en . Il y a également eu des propositions de distribution t multivariée (qui n'est pas indépendante) comme distribution d'erreur. Cette proposition est fortement critiquée dans l'article "Les nouveaux vêtements de l'empereur: une critique du modèle de régression multivariée t " par TS Breusch, JC Robertson et AH Welsh, dans Statistica Neerlandica (1997) Vol. 51, nr. 3, pp. 269-286, où ils montrent que la distribution d' erreur t multivariée est empiriquement impossible à distinguer de la normale. Mais cette critique n'affecte pas le modèle t indépendant . ttttt
(*) Une référence indiquant cela est MASS de Venables & Ripley --- Statistiques appliquées modernes avec S (à la page 110 de la 4e édition).
d know that the model proposed isn
assez bons.Il ne s'agit pas seulement de «queues plus lourdes» - il existe de nombreuses distributions en forme de cloche et à queues lourdes.
La distribution T est la prédiction postérieure du modèle gaussien. Si vous faites une hypothèse gaussienne, mais avez des preuves finies, le modèle résultant fait nécessairement des prédictions distribuées à échelle non centrale. À la limite, comme la quantité de preuves que vous avez va à l'infini, vous vous retrouvez avec des prédictions gaussiennes puisque la limite de la distribution t est gaussienne.
Pourquoi cela arrive-t-il? Parce qu'avec une quantité limitée de preuves, il y a une incertitude dans les paramètres de votre modèle. Dans le cas du modèle gaussien, l'incertitude dans la moyenne ne ferait qu'augmenter la variance (c.-à-d. Que la prédiction postérieure d'un gaussien avec une variance connue est encore gaussienne). Mais l'incertitude sur la variance est ce qui cause les queues lourdes. Si le modèle est entraîné avec des preuves illimitées, il n'y a plus d'incertitude dans la variance (ou la moyenne) et vous pouvez utiliser votre modèle pour faire des prédictions gaussiennes.
Cet argument s'applique à un modèle gaussien. Elle s'applique également à un paramètre inféré dont les probabilités sont gaussiennes. Étant donné les données finies, l'incertitude sur le paramètre est distribuée en t. Partout où il existe des hypothèses normales (avec une moyenne et une variance inconnues) et des données finies, il existe des prédicteurs postérieurs distribués en t.
Il existe des distributions prédictives postérieures similaires pour tous les modèles bayésiens. Gelman suggère que nous devrions les utiliser. Ses préoccupations seraient atténuées par des preuves suffisantes.
la source