J'ai un ensemble de nombres qui sont supposés provenir d'une distribution de Poisson. L'ensemble a également des valeurs aberrantes et, à cause de cela, les estimations du maximum de probabilité sont gravement affectées. J'ai entendu dire que des procédures d'estimation robustes peuvent aider dans une telle situation. Quelqu'un peut-il expliquer comment procéder? Je ne suis pas étudiant en statistiques.
J'ai trouvé que la glmrob
fonction dans R peut être utilisée pour cela. (Je suis assez nouveau pour R). Mais je ne pouvais pas comprendre comment l'utiliser malgré la lecture des pages de manuel. En particulier, je ne peux pas comprendre comment obtenir un forumula
qui est le premier argument de la fonction glmrob.
Merci.
sumY ~ Age10 + Base4*Trt
. Avec les données dont je dispose, je suis incapable de trouver de telles formules. J'ai juste un tas de nombres supposés provenir d'une distribution de Poisson. Si je comprends bien, je n'ai pas de variable dépendante et de variable indépendante et c'est peut-être pourquoi je ne suis pas en mesure de trouver une formule.y~1
.Réponses:
@cardinal a télégraphié une réponse dans les commentaires. Allons-y. Son point de vue est que, bien que les modèles linéaires généraux (tels que ceux mis en œuvre par
lm
et, dans ce cas,glmRob
) semblent destinés à évaluer les relations entre les variables, ils peuvent aussi être de puissants outils pour étudier une seule variable. L'astuce repose sur le fait que la régression des données par rapport à une constante n'est qu'une autre façon d'estimer sa valeur moyenne («emplacement») .À titre d'exemple, générez des données de Poisson:
Dans ce cas,( 1 , 5 , 2 , 3 , 2 , 2 , 1 , 1 , 3 , 1 ) des valeurs 2 . Estimez son emplacement avec
R
produira le vecteurx
d'une distribution de Poisson de la moyenneglmRob
:La réponse nous indique que l' ordonnée à l'origine est estimée à0,7268 . Bien entendu, toute personne utilisant une méthode statistique doit savoir comment elle fonctionne: lorsque vous utilisez des modèles linéaires généralisés avec la famille Poisson, la fonction "lien" standard est le logarithme. Cela signifie que l'ordonnée à l'origine est le logarithme de l'emplacement estimé. Nous calculons donc
Le résultat,2.0685 , est confortablement proche de 2 : la procédure semble fonctionner. Pour voir ce qu'il fait, tracez les données:
La droite ajustée est purement horizontale et estime donc le milieu des valeurs verticales: nos données. C'est tout ce qui se passe.
Pour vérifier la robustesse, créons une mauvaise valeur aberrante en plaçant quelques zéros sur la première valeur de
x
:Cette fois, pour une plus grande flexibilité dans le post-traitement, nous allons enregistrer la sortie de
glmRob
:Pour obtenir la moyenne estimée, nous pouvons demander
La valeur cette fois est égale à2,496 : un peu en retrait, mais pas trop loin, étant donné que la valeur moyenne de 12 . C'est dans ce sens que cette procédure est "robuste". Plus d'informations peuvent être obtenues via
x
(obtenue commemean(x)
) estSa sortie nous montre, entre autres, que le poids associé à la valeur périphérique de100 en 0,02179 , presque 0 , identifiant la valeur aberrante suspectée.
x[1]
est justela source