Signification précise et comparaison entre point influent, point de levier élevé et valeur aberrante?

15

De Wikipédia

Les observations influentes sont celles qui ont un effet relativement important sur les prévisions du modèle de régression.

De Wikipédia

Les points de levier sont les observations, le cas échéant, faites à des valeurs extrêmes ou périphériques des variables indépendantes de sorte que le manque d'observations voisines signifie que le modèle de régression ajusté passera près de cette observation particulière.

Pourquoi la comparaison suivante de Wikipedia

Bien qu'un point d'influence aura généralement un effet de levier élevé , un point de levier élevé n'est pas nécessairement un point d'influence .

Tim
la source
2
Les réponses ci-dessous sont bonnes. Il peut également être utile de lire ma réponse ici: Interpréter plot.lm () .
gung - Rétablir Monica

Réponses:

13

Imaginez une ligne de régression ajustée à certaines données.

Imaginez maintenant un point de données supplémentaire, une valeur aberrante à une certaine distance du corps principal des données, mais qui se situe quelque part le long de cette ligne de régression.

Si la ligne de régression devait être réajustée, les coefficients ne changeraient pas. À l'inverse, la suppression de la valeur aberrante supplémentaire n'aurait aucune influence sur les coefficients.

Ainsi, un point aberrant ou à effet de levier n'aurait aucune influence s'il était parfaitement cohérent avec le reste des données et le modèle que le reste implique.

Pour "ligne", lisez "plan" ou "hyperplan" si vous le souhaitez, mais l'exemple le plus simple de deux variables et d'un nuage de points suffit ici.

Cependant, comme vous aimez les définitions - souvent, semble-t-il, ayant tendance à trop les lire - voici ma définition préférée des valeurs aberrantes:

«Les valeurs aberrantes sont des valeurs d'échantillon qui provoquent la surprise par rapport à la majorité de l'échantillon» (WN Venables et BD Ripley. 2002. Statistiques appliquées modernes avec S. New York: Springer, p.119).

Surtout, la surprise est dans l'esprit du spectateur et dépend d'un modèle tacite ou explicite des données. Il peut y avoir un autre modèle selon lequel la valeur aberrante n'est pas du tout surprenante, par exemple si les données sont vraiment lognormales ou gamma plutôt que normales.

PS Je ne pense pas que les leviers manquent nécessairement d' observations voisines. Par exemple, ils peuvent se produire par paires.

Nick Cox
la source
Merci! Les valeurs aberrantes et les points de levier élevés sont-ils le même concept? Notez que "L'effet de levier est généralement défini comme la diagonale de la matrice du chapeau" dans en.wikipedia.org/wiki/Partial_leverage
Tim
1
Non; vous ne nous avez pas montré de définition de «valeur aberrante», mais il découle de la définition des points de levier qu'ils ne doivent pas nécessairement être des valeurs aberrantes sensu Venables et Ripley. (Je recommande d'essayer de vous sevrer de Wikipédia.) Voir aussi la réponse de @ Gael.
Nick Cox
1
"Surtout, la surprise est dans l'esprit du spectateur et dépend d'un modèle tacite ou explicite des données. Il peut y avoir un autre modèle selon lequel la valeur aberrante n'est pas du tout surprenante, par exemple si les données sont vraiment lognormales ou gamma plutôt que Ordinaire." Les valeurs aberrantes sont donc définies par rapport à certains modèles, tandis que les points de levier élevé et les points d'influence ne le sont pas?
Tim
1
Venables et Ripley, comme je l'ai lu, faisaient un point intelligent d'une manière pleine d'esprit, et renversaient l'idée naïve que les valeurs aberrantes peuvent être définies par des déclarations formelles exactes. Mais d'autres traitements peuvent être trouvés dans différents styles. En revanche, l'effet de levier et l'influence peuvent être définis formellement en termes de moyens de les mesurer. Les deux styles d'utilisation de la terminologie ne sont pas vraiment cohérents. Pour avoir une meilleure idée de ce que sont et ne sont pas les valeurs aberrantes, l'expérience de l'analyse de données réelle enseigne plus que la lecture des entrées de l'encyclopédie.
Nick Cox
Gael fait référence au commentaire du 29 juillet 2013 utilise désormais l'identifiant @Gala. Au moment de la rédaction, il n'y a qu'une seule autre réponse, mais cela peut changer.
Nick Cox
20

Il est facile d'illustrer comment un point de levier élevé peut ne pas avoir d'influence dans le cas d'un modèle linéaire simple:

Effet de levier élevé mais point pas trop influent

La ligne bleue est une ligne de régression basée sur toutes les données, la ligne rouge ignore le point en haut à droite du tracé.

Ce point correspond à la définition d'un point à effet de levier élevé que vous venez de fournir car il est loin du reste des données. Pour cette raison, la ligne de régression (la bleue) doit passer près d'elle. Mais comme sa position correspond largement au schéma observé dans le reste des données, l'autre modèle le prévoirait très bien (c'est-à-dire que la ligne rouge passe déjà près de lui en tout cas) et il n'est donc pas particulièrement influent.

Comparez cela au nuage de points suivant:

Effet de levier élevé point très influent

Ici, le point à droite de l'intrigue est toujours un point de levier élevé mais cette fois il ne correspond pas vraiment au modèle observé dans le reste des données. La ligne bleue (l'ajustement linéaire basé sur toutes les données) passe très près, mais pas la ligne rouge. L'inclusion ou l'exclusion de ce point modifie considérablement les estimations des paramètres: il a beaucoup d'influence.

Notez que les définitions que vous avez citées et les exemples que je viens de donner peuvent sembler impliquer que des points de levier / d'influence élevés sont, dans un certain sens, des «valeurs aberrantes» univariées et que la droite de régression ajustée passera près des points avec l'influence la plus élevée, mais elle doit pas le cas.

Point caché très influent

Dans ce dernier exemple, l'observation en bas à droite a un effet (relativement) important sur l'ajustement du modèle (visible à nouveau à travers la différence entre les lignes rouges et bleues) mais il semble toujours être loin de la ligne de régression tout en étant indétectable dans les distributions univariées (représentées ici par les «tapis» le long des axes).

Gala
la source
Merci! Le point de levier élevé que nous avons utilisé ici est-il cohérent avec "le levier est généralement défini comme la diagonale de la matrice de chapeau" de en.wikipedia.org/wiki/Partial_leverage ?
Tim
Excellente explication. Je vous serais très reconnaissant si vous fournissez également les données pour les trois cas. Merci
MYaseen208