Les observations influentes sont celles qui ont un effet relativement important sur les prévisions du modèle de régression.
Les points de levier sont les observations, le cas échéant, faites à des valeurs extrêmes ou périphériques des variables indépendantes de sorte que le manque d'observations voisines signifie que le modèle de régression ajusté passera près de cette observation particulière.
Pourquoi la comparaison suivante de Wikipedia
Bien qu'un point d'influence aura généralement un effet de levier élevé , un point de levier élevé n'est pas nécessairement un point d'influence .
Réponses:
Imaginez une ligne de régression ajustée à certaines données.
Imaginez maintenant un point de données supplémentaire, une valeur aberrante à une certaine distance du corps principal des données, mais qui se situe quelque part le long de cette ligne de régression.
Si la ligne de régression devait être réajustée, les coefficients ne changeraient pas. À l'inverse, la suppression de la valeur aberrante supplémentaire n'aurait aucune influence sur les coefficients.
Ainsi, un point aberrant ou à effet de levier n'aurait aucune influence s'il était parfaitement cohérent avec le reste des données et le modèle que le reste implique.
Pour "ligne", lisez "plan" ou "hyperplan" si vous le souhaitez, mais l'exemple le plus simple de deux variables et d'un nuage de points suffit ici.
Cependant, comme vous aimez les définitions - souvent, semble-t-il, ayant tendance à trop les lire - voici ma définition préférée des valeurs aberrantes:
«Les valeurs aberrantes sont des valeurs d'échantillon qui provoquent la surprise par rapport à la majorité de l'échantillon» (WN Venables et BD Ripley. 2002. Statistiques appliquées modernes avec S. New York: Springer, p.119).
Surtout, la surprise est dans l'esprit du spectateur et dépend d'un modèle tacite ou explicite des données. Il peut y avoir un autre modèle selon lequel la valeur aberrante n'est pas du tout surprenante, par exemple si les données sont vraiment lognormales ou gamma plutôt que normales.
PS Je ne pense pas que les leviers manquent nécessairement d' observations voisines. Par exemple, ils peuvent se produire par paires.
la source
Il est facile d'illustrer comment un point de levier élevé peut ne pas avoir d'influence dans le cas d'un modèle linéaire simple:
La ligne bleue est une ligne de régression basée sur toutes les données, la ligne rouge ignore le point en haut à droite du tracé.
Ce point correspond à la définition d'un point à effet de levier élevé que vous venez de fournir car il est loin du reste des données. Pour cette raison, la ligne de régression (la bleue) doit passer près d'elle. Mais comme sa position correspond largement au schéma observé dans le reste des données, l'autre modèle le prévoirait très bien (c'est-à-dire que la ligne rouge passe déjà près de lui en tout cas) et il n'est donc pas particulièrement influent.
Comparez cela au nuage de points suivant:
Ici, le point à droite de l'intrigue est toujours un point de levier élevé mais cette fois il ne correspond pas vraiment au modèle observé dans le reste des données. La ligne bleue (l'ajustement linéaire basé sur toutes les données) passe très près, mais pas la ligne rouge. L'inclusion ou l'exclusion de ce point modifie considérablement les estimations des paramètres: il a beaucoup d'influence.
Notez que les définitions que vous avez citées et les exemples que je viens de donner peuvent sembler impliquer que des points de levier / d'influence élevés sont, dans un certain sens, des «valeurs aberrantes» univariées et que la droite de régression ajustée passera près des points avec l'influence la plus élevée, mais elle doit pas le cas.
Dans ce dernier exemple, l'observation en bas à droite a un effet (relativement) important sur l'ajustement du modèle (visible à nouveau à travers la différence entre les lignes rouges et bleues) mais il semble toujours être loin de la ligne de régression tout en étant indétectable dans les distributions univariées (représentées ici par les «tapis» le long des axes).
la source