Ma question découle de ce commentaire sur un article de blog d'Andrew Gelman dans lequel il préconise l'utilisation d'intervalles de confiance de 50% au lieu d'intervalles de confiance de 95%, mais pas au motif qu'ils sont plus solidement estimés:
Je préfère des intervalles de 50% à 95% pour 3 raisons:
Stabilité de calcul,
Évaluation plus intuitive (la moitié des intervalles de 50% doit contenir la vraie valeur),
Le sentiment que dans les applications, il est préférable de se faire une idée de l'endroit où se trouveront les paramètres et les valeurs prévues, et non de tenter une quasi-certitude irréaliste.
L'idée du commentateur semble être que les problèmes avec les hypothèses sous-jacentes à la construction de l'intervalle de confiance auront plus d'impact si c'est un IC à 95% que si c'est un IC à 50%. Cependant, il n'explique pas vraiment pourquoi.
[...] au fur et à mesure que vous avancez sur de plus grands intervalles, vous devenez généralement plus sensible aux détails ou aux hypothèses de votre modèle. Par exemple, vous ne croiriez jamais que vous avez correctement identifié l'intervalle de 99,9995%. Ou du moins, c'est mon intuition. Si c'est vrai, il fait valoir que 50% devraient être mieux estimés que 95%. Ou peut-être une estimation «plus robuste», car elle est moins sensible aux hypothèses sur le bruit, peut-être?
Est-ce vrai? Pourquoi pourquoi pas?
la source
Réponses:
Cette réponse analyse le sens de la citation et offre les résultats d'une étude de simulation pour l'illustrer et aider à comprendre ce qu'elle pourrait essayer de dire. L'étude peut facilement être étendue par n'importe qui (avec des
R
compétences rudimentaires ) pour explorer d'autres procédures d'intervalle de confiance et d'autres modèles.Deux questions intéressantes sont apparues dans ce travail. L'une concerne la manière d'évaluer la précision d'une procédure d'intervalle de confiance. L'impression que l'on obtient de robustesse en dépend. J'affiche deux mesures de précision différentes afin que vous puissiez les comparer.
L'autre problème est que, bien qu'une procédure d' intervalle de confiance à faible confiance puisse être robuste, les limites de confiance correspondantes pourraient ne pas être robustes du tout. Les intervalles ont tendance à bien fonctionner parce que les erreurs qu'ils commettent à une extrémité compensent souvent les erreurs qu'ils font à l'autre. En pratique, vous pouvez être sûr que près de la moitié de vos intervalles de confiance à couvrent leurs paramètres, mais le paramètre réel peut toujours se trouver près d'une fin particulière de chaque intervalle, selon la façon dont la réalité s'écarte de vos hypothèses de modèle.50 %
Robuste a une signification standard en statistique:
(Hoaglin, Mosteller et Tukey, Understanding Robust and Exploratory Data Analysis . J. Wiley (1983), p. 2.)
Cela est conforme à la citation de la question. Pour comprendre la citation, nous devons encore connaître la finalité d'un intervalle de confiance. À cette fin, passons en revue ce que Gelman a écrit.
Étant donné que l'obtention d'une idée des valeurs prédites n'est pas celle à laquelle les intervalles de confiance (IC) sont destinés, je vais me concentrer sur l'obtention d'une idée des valeurs des paramètres , ce que font les IC. Appelons-les les valeurs "cibles". D'où, par définition, un IC est destiné à couvrir sa cible avec une probabilité spécifiée (son niveau de confiance). Atteindre les taux de couverture prévus est le critère minimum pour évaluer la qualité de toute procédure d'IC. (De plus, nous pourrions être intéressés par des largeurs de CI typiques. Pour garder le message à une longueur raisonnable, j'ignorerai ce problème.)
Ces considérations nous invitent à étudier dans quelle mesure un calcul d'intervalle de confiance pourrait nous induire en erreur concernant la valeur du paramètre cible. La citation pourrait être lue comme suggérant que les IC à faible confiance pourraient conserver leur couverture même lorsque les données sont générées par un processus différent du modèle. C'est quelque chose que nous pouvons tester. La procédure est la suivante:
Adoptez un modèle de probabilité qui comprend au moins un paramètre. Le plus classique consiste à échantillonner à partir d'une distribution normale de moyenne et de variance inconnues.
Sélectionnez une procédure CI pour un ou plusieurs paramètres du modèle. Un excellent construit l'IC à partir de la moyenne de l'échantillon et de l'écart-type de l'échantillon, en multipliant ce dernier par un facteur donné par une distribution de Student.
Appliquer cette procédure à divers modèles différents - ne s'écartant pas trop du modèle adopté - pour évaluer sa couverture sur une gamme de niveaux de confiance.
capture bien la différence. Lorsqu'il est nul, la couverture correspond exactement à la valeur souhaitée. Lorsqu'il est négatif, la couverture est trop faible - ce qui signifie que l'IC est trop optimiste et sous-estime l'incertitude.
La question est alors de savoir comment ces taux d'erreur varient avec le niveau de confiance alors que le modèle sous-jacent est perturbé? Nous pouvons y répondre en traçant les résultats de la simulation. Ces graphiques quantifient à quel point «irréaliste» la «quasi-certitude» d'un IC pourrait être dans cette application archétypale.
C'est le
R
code qui a produit les tracés. Il est facilement modifié pour étudier d'autres distributions, d'autres plages de confiance et d'autres procédures d'IC.la source
C'est une idée intéressante, et je peux voir à quel point elle est intuitivement convaincante, mais je pense qu'elle est trop vague pour être vraie ou fausse. Voici quelques questions que j'aimerais que le commentateur clarifie:
Avec des réponses différentes à ces questions, je pense que nous pourrions faire la déclaration clairement vraie ou fausse.
Je suppose que le commentateur fait référence à:
Si c'est ce que le commentateur a à l'esprit, selon la façon dont les queues de la distribution se négocient avec ses épaules, la déclaration pourrait être vraie.
la source