La régression peut-elle être utilisée pour une détection externe. Je comprends qu'il existe des moyens d'améliorer un modèle de régression en supprimant les valeurs aberrantes. Mais l'objectif principal ici n'est pas d'adapter un modèle de régression, mais de découvrir des mensonges en utilisant la régression
regression
outliers
user48567
la source
la source
Réponses:
Votre meilleure option pour utiliser la régression pour trouver des valeurs aberrantes est d'utiliser une régression robuste.
La régression ordinaire peut être affectée par les valeurs aberrantes de deux manières:
Tout d'abord, une valeur aberrante extrême dans la direction y à des valeurs x proches deX¯ peut affecter l'ajustement dans cette zone de la même manière qu'une valeur aberrante peut affecter une moyenne.
Deuxièmement, une observation «périphérique» dans l'espace x est une observation influente - elle peut tirer l'ajustement de la ligne vers elle. Si elle est suffisamment éloignée, la ligne passera par le point influent:
Dans le graphique de gauche, il y a un point qui est assez influent, et il tire la ligne assez loin de la grande masse des données. Dans le bon tracé, il a été déplacé encore plus loin - et maintenant la ligne passe par le point. Lorsque la valeur x est extrême, lorsque vous déplacez ce point de haut en bas, la ligne se déplace avec elle, passant par la moyenne des autres points et par le seul point influent.
Un point d'influence qui est parfaitement cohérent avec le reste des données n'est peut-être pas un si gros problème, mais un point éloigné d'une ligne passant par le reste des données fera en sorte que la ligne lui convienne, plutôt que les données.
Si vous regardez l'intrigue de droite, la ligne rouge - la ligne de régression des moindres carrés - ne montre le point extrême comme une valeur aberrante - son résiduel est 0. Au lieu de cela, les gros résidus de la ligne des moindres carrés sont en l'essentiel des données!
Cela signifie que vous pouvez complètement manquer une valeur aberrante .
Pire encore, avec une régression multiple, une valeur aberrante dans l'espace x peut ne pas sembler particulièrement inhabituelle pour une seule variable x. S'il y a une possibilité d'un tel point, il est potentiellement très risqué d'utiliser la régression des moindres carrés.
Régression robuste
Si vous correspondez à une ligne robuste - en particulier une ligne robuste aux valeurs aberrantes influentes - comme la ligne verte dans le deuxième graphique - alors la valeur aberrante a un très grand résidu.
Dans ce cas, vous avez un certain espoir d'identifier les valeurs aberrantes - ce seront des points qui ne sont pas - dans un certain sens - proches de la ligne.
Suppression des valeurs aberrantes
Vous pouvez certainement utiliser une régression robuste pour identifier et ainsi supprimer les valeurs aberrantes.
Mais une fois que vous avez un ajustement de régression robuste, qui n'est déjà pas très affecté par les valeurs aberrantes, vous n'avez pas nécessairement besoin de supprimer les valeurs aberrantes - vous avez déjà un modèle qui convient bien.
la source
Oui. Cette réponse et la réponse de Glen_b répondent à cela.
S'appuyant sur le commentaire de Roman Lustrik, voici une heuristique pour trouver des valeurs aberrantes en utilisant une régression (linéaire multiple).
En mettant de côté ces points aberrants candidats, nous pouvons répéter tout l'exercice avec l'échantillon réduit. Dans l'algorithme, nous choisissons des exemples dans les données qui influencent mal l'ajustement de régression (ce qui est une façon d'étiqueter un exemple comme une valeur aberrante).
la source