J'écris un programme pour évaluer les biens immobiliers et je ne comprends pas vraiment les différences entre certains modèles de régression robustes, c'est pourquoi je ne sais pas lequel choisir.
J'ai essayé lmrob
, ltsReg
et rlm
. pour le même ensemble de données, les trois méthodes m'ont donné des valeurs différentes pour les coefficients.
Je pensais qu'il est préférable d'utiliser ltsReg
parce que, summary(ltsReg())
fournit des informations sur R-squared
et p-values
ce qui me aidera à décider si , au moment d' accepter ou de rejeter le modèle.
Pensez-vous que c'est ltsReg
un bon choix?
EDIT: Je viens de lire sur les statistiques de qualité de l'ajustement que le R au carré ajusté est généralement le meilleur indicateur de l'ajustement de la qualité
la source
Réponses:
Dans la notation que j'utiliserai, sera le nombre de variables de conception (y compris le terme constant), le nombre d'observations avec (si cette dernière condition n'était pas remplie, le package n'aurait pas retourné d'ajustement mais une erreur, donc je suppose qu'elle est remplie). Je désignerai par le vecteur des coefficients estimés par FLTS ( ) et les coefficients estimés par MM ( ). J'écrirai également:p n n≥2p+1 β^FLTS β^MM
ltsReg
lmrob
(ce sont les résidus au carré, pas ceux normalisés!)
La1/n n 1/(p+1) p p+1
rlm
fonction correspond à une estimation «M» de la régression et, comme la proposition de @Frank Harrell faite dans les commentaires à votre question, elle n'est pas robuste aux valeurs aberrantes sur l'espace de conception. La régression ordinale a un point de rupture (la proportion de vos données qui doit être remplacée par des valeurs aberrantes pour tirer les coefficients ajustés à des valeurs arbitraires) de essentiellement ce qui signifie qu'une seule valeur aberrante (indépendamment de !) Suffit pour rendre l'ajustement dénué de sens . Pour les estimations de régression M (par exemple la régression de Huber M), le point de rupture est essentiellement de . C'est un peu plus élevé, mais en pratique, il est toujours inconfortablement proche de 0 (car souvent sera grand). La seule conclusion que l'on puisse tirer derlm
trouver un ajustement différent des deux autres méthodes est qu'il a été influencé par des valeurs aberrantes de conception et qu'il doit y en avoir plus de dans votre ensemble de données.En revanche, les deux autres algorithmes sont beaucoup plus robustes: leur point de rupture est juste en dessous de et, surtout, ne rétrécit pas lorsque devient grand. Lorsque vous ajustez un modèle linéaire à l'aide d'une méthode robuste, vous supposez qu'au moins observations dans vos données ne sont pas contaminées. La tâche de ces deux algorithmes est de trouver ces observations et de les adapter au mieux. Plus précisément, si l'on note:1/2 p h=⌊(n+p+1)/2⌋+1
(où est le quantile du vecteur )qh/n(r2i(β^MM)) h/n r2i(β^MM)
alors ( ) essaie d'ajuster les observations avec des indices dans ( ).β^MM β^FLTS HMM HFLTS
Le fait qu'il existe de grandes différences entre et indique que les deux algorithmes n'identifient pas le même ensemble d'observations que les valeurs aberrantes. Cela signifie qu'au moins l'un d'entre eux est influencé par les valeurs aberrantes. Dans ce cas, l'utilisation du (ajusté) ou de n'importe quelle statistique de l'un des deux ajustements pour décider lequel utiliser, bien qu'intuitif, est une idée terrible : les ajustements contaminés ont généralement des résidus plus petits que ceux propres (mais puisque la connaissance de c'est la raison pour laquelle on utilise des statistiques robustes en premier lieu, je suppose que l'OP en est bien conscient et que je n'ai pas besoin de m'étendre là-dessus).β^FLTS β^MM R2
Les deux ajustements robustes donnent des résultats contradictoires et la question est celle qui est correcte? Une façon de résoudre ce problème consiste à considérer l'ensemble:
car , . De plus, si ou est exempt de valeurs aberrantes, . La solution que je propose exploite ce fait. Calculer:h≥[n/2] #{H+}≥p HMM HFLTS H+
Par exemple, si , alors, correspond mieux aux bonnes observations que et je ferais donc plus confiance à . Et vice versa.D(H+,β^FLTS,β^MM)<0 β^FLTS β^MM β^FLTS
la source