Tout d'abord, je dois dire que j'ai cherché sur ce site la réponse. Soit je n'ai pas trouvé de question qui répondait à ma question, soit mon niveau de connaissances est si bas que je ne savais pas que j'avais déjà lu la réponse.
J'étudie pour l'examen statistique AP. Je dois apprendre la régression linéaire et l'un des sujets est les résidus. J'ai une copie de Introduction à la statistique et à l'analyse des données à la page 253 qu'il indique.
Les points inhabituels dans un ensemble de données bivariées sont ceux qui s'éloignent de la plupart des autres points du nuage de points dans la direction ou la direction
Une observation est potentiellement une observation influente si elle a une valeur qui est loin du reste des données (séparée du reste des données dans la direction ). Pour déterminer si l'observation est en fait influente, nous évaluons si la suppression de cette observation a un impact important sur la valeur de la pente ou de l'ordonnée à l'origine de la ligne des moindres carrés.
Une observation est une valeur aberrante si elle a un grand résidu. L'observation aberrante tombe loin de la ligne des moindres carrés dans la direction .
Stattreck.com indique quatre méthodes pour déterminer une valeur aberrante à partir de résidus:
Les points de données qui s'écartent considérablement du modèle global sont appelés valeurs aberrantes. Il existe quatre façons de considérer un point de données comme une valeur aberrante.
- Il pourrait avoir une valeur X extrême par rapport à d'autres points de données.
- Il pourrait avoir une valeur Y extrême par rapport à d'autres points de données.
- Il pourrait avoir des valeurs X et Y extrêmes.
- Il peut être éloigné du reste des données, même sans valeurs X ou Y extrêmes.
Ces deux sources semblent se contredire. Quelqu'un pourrait-il aider à dissiper ma confusion. Aussi, comment définit-on extrême. Les statistiques AP utilisent la règle si le point de données est en dehors de (Q1-1.5IQR, Q3 + 1.5IQR) s'il s'agit d'une valeur aberrante. Je ne sais pas comment l'appliquer à partir d'un simple graphique des résidus.
la source
L'influence est fonction des points de conception (les valeurs X), comme l'indique votre manuel.
Notez que l'influence est le pouvoir. Dans une expérience conçue, vous voulez des valeurs X influentes, en supposant que vous pouvez mesurer avec précision la valeur Y correspondante. Vous obtenez plus pour votre argent de cette façon.
Pour moi, une valeur aberrante est essentiellement une erreur - c'est-à-dire une observation qui ne suit pas le même modèle que le reste des données. Cela peut se produire en raison d'une erreur de collecte de données ou parce que ce sujet particulier était inhabituel d'une manière ou d'une autre.
Je n'aime pas beaucoup la définition donnée par stattrek d'une valeur aberrante pour plusieurs raisons. La régression n'est pas symétrique en Y et X. Y est modélisé comme une variable aléatoire et les X sont supposés fixes et connus. L'étrangeté dans les Y n'est pas la même chose que l'étrangeté dans les X. L'influence et la valeur aberrante signifient des choses différentes. L'influence, en régression multiple, n'est pas détectée en examinant les parcelles résiduelles. Une bonne description des valeurs aberrantes et de l'influence du cas à variable unique devrait vous permettre de comprendre également les cas multiples.
Je n'aime pas encore plus votre manuel, pour les raisons données par John.
En bout de ligne, les valeurs aberrantes influentes sont dangereuses. Ils doivent être examinés de près et traités.
la source