J'observe d'étranges schémas de résidus pour mes données:
[EDIT] Voici les graphiques de régression partielle pour les deux variables:
[EDIT2] Ajout du tracé PP
La distribution semble bien se passer (voir ci-dessous) mais je n'ai aucune idée d'où cette ligne droite pourrait provenir. Des idées?
[MISE À JOUR 31.07]
Il s'avère que vous aviez absolument raison, j'ai eu des cas où le nombre de retweets était bien de 0 et ces ~ 15 cas ont donné lieu à ces étranges schémas résiduels.
Les résidus semblent beaucoup mieux maintenant:
J'ai également inclus les régressions partielles avec une ligne de loess.
Réponses:
Il semble que sur certaines de ses sous-plages, votre variable dépendante soit constante ou dépend exactement de façon linéaire du ou des prédicteurs. Ayons deux variables corrélées, X et Y (Y dépend). Le nuage de points est à gauche.
Revenons, par exemple, sur la première possibilité ("constante"). Recode toutes les valeurs Y de la plus basse à -0,5 en une seule valeur -1 (voir l'image au centre). Régresser Y sur X et tracer la dispersion des résidus, c'est-à-dire faire pivoter l'image centrale de sorte que la ligne de prédiction soit maintenant horizontale. Ressemble-t-il à votre photo?
la source
Il n'est pas surprenant que vous ne voyiez pas le motif dans l'histogramme, le motif impair s'étend sur une bonne partie de la plage de l'histogramme et ne représente que quelques points de données dans chaque casier. Vous avez vraiment besoin de savoir de quels points de données il s'agit et de les consulter. Vous pouvez utiliser les valeurs prédites et les résidus pour les trouver assez facilement. Une fois que vous avez trouvé les valeurs, commencez à chercher pourquoi celles-ci peuvent être spéciales.
Cela dit, ce modèle particulier n'est spécial que parce qu'il est long. Si vous regardez attentivement votre tracé de résidus et votre tracé de quantile, vous verrez qu'il se répète mais qu'il s'agit de séquences plus petites. C'est peut-être vraiment une anomalie. Ou peut-être que c'est vraiment un modèle qui se répète. Mais, vous devrez trouver où il se trouve dans les données brutes et l'examiner afin d'avoir tout espoir de le comprendre.
Pour vous aider un peu, le tracé quantile-quantile suggère que vous avez un tas de résidus identiques. Il est possible que ce soit une erreur de codage. Je peux générer quelque chose de similaire en R avec ...
Notez les deux points plats sur la ligne. Cependant, cela semble plus complexe que cela car il y a une implication que les résidus identiques traversent une gamme de prédicteurs.
la source
Il semble que vous l'utilisiez
R
. Si c'est le cas, notez que vous pouvez identifier des points sur un nuage de points en utilisant ? Identifier . Je pense qu'il y a plusieurs choses qui se passent ici. Premièrement, vous avez un point très influent sur l'intrigue deLN_RT_vol_in ~ LN_AT_vol_in
(celui mis en évidence) à environ (0,2, 1,5). Il s'agit très probablement du résidu normalisé d'environ -3,7. L'effet de ce point sera d'aplatir la ligne de régression, en l'inclinant plus horizontalement que la ligne fortement ascendante que vous auriez autrement obtenue. Un effet de cela est que tous vos résidus seront tournés dans le sens antihoraire par rapport à l'endroit où ils auraient autrement été situés dans l'residual ~ predicted
intrigue (au moins en pensant en termes de cette covariable et en ignorant l'autre).Néanmoins, la ligne droite apparente de résidus que vous voyez serait toujours là, car ils existent quelque part dans le nuage tridimensionnel de vos données d'origine. Ils peuvent être difficiles à trouver dans l'une ou l'autre des parcelles marginales. Vous pouvez utiliser la fonction identifier () pour vous aider, et vous pouvez également utiliser le package rgl pour créer un nuage de points 3D dynamique que vous pouvez faire pivoter librement avec votre souris. Cependant, notez que les résidus linéaires sont tous inférieurs à 0 dans leur valeur prédite et ont des résidus inférieurs à 0 (c'est-à-dire qu'ils sont inférieurs à la droite de régression ajustée); qui vous donne un gros indice pour savoir où chercher. En regardant à nouveau votre intrigue de
LN_RT_vol_in ~ LN_AT_vol_in
, Je pense que je peux les voir. Il y a un groupe de points assez droit s'étendant en diagonale vers le bas et vers la gauche d'environ (-.01, -1.00) au bord inférieur du nuage de points dans cette région. Je soupçonne que ce sont les points en question.En d'autres termes, les résidus se présentent de cette façon parce qu'ils se trouvent déjà de cette façon quelque part dans l'espace de données. Essentiellement, c'est ce que @ttnphns suggère, mais je ne pense pas que ce soit une constante dans aucune des dimensions d'origine - c'est une constante dans une dimension à un angle par rapport à vos axes d'origine. Je suis en outre d'accord avec @MichaelChernick que cette rectitude apparente dans le tracé résiduel est probablement inoffensive, mais que vos données ne sont pas vraiment très normales. Ils sont quelque peu normaux, cependant, et vous semblez avoir un nombre décent de données, donc le CLT peut vous couvrir, mais vous voudrez peut-être bootstrap juste au cas où. Enfin, je crains que cette «valeur aberrante» ne détermine vos résultats; une approche robuste est probablement méritée.
la source
it's a constant in a dimension at an angle to your original axes
peut-elle être comparable à la mienneis exactly linearly dependent on the predictor(s)
, ou vous voulez dire quelque chose de différent?Je ne dirais pas nécessairement que l'histogramme est correct. La superposition visuelle de la normale la mieux adaptée à un histogramme peut être trompeuse et votre histogramme peut être sensible au choix de la largeur du bac. Le graphique de probabilité normale semble indiquer un écart important par rapport à la normale et même en regardant l'histogramme, il semble à mes yeux qu'il y a une légère asymétrie (fréquence plus élevée dans le bac [0, + 0,5] par rapport au bac [-0,5,0]) et kurtosis sévère (trop grande d'une fréquence dans les intervalles [-4, -3,5] et [2,5, 3]).
En ce qui concerne le modèle que vous voyez, il peut provenir d'une exploration sélective à travers le nuage de points. Il semble que si vous en poursuivez, vous pouvez trouver deux ou trois autres lignes presque parallèles à celle que vous avez choisie. Je pense que vous en lisez trop. Mais la non-normalité est une réelle préoccupation. Vous avez une valeur aberrante très énorme avec un résidu de près de -4. Ces résidus proviennent-ils d'un ajustement des moindres carrés? Je conviens qu'il pourrait être instructif de regarder la ligne ajustée sur un nuage de points des données.
la source