La saison des vacances m'a donné l'occasion de m'installer près du feu avec Les éléments d'apprentissage statistique . Venant d’une perspective économétrique (fréquentiste), j’ai du mal à comprendre les utilisations de méthodes de réduction telles que la régression de crête, le lasso et la régression du moindre angle (LAR). En règle générale, je m'intéresse aux paramètres eux-mêmes et à l'atteinte d'un objectif impartial ou du moins d'une cohérence. Les méthodes de retrait ne font pas cela.
Il me semble que ces méthodes sont utilisées lorsque le statisticien craint que la fonction de régression ne soit trop réactive aux prédicteurs, qu’il considère que les prédicteurs sont plus importants (mesurés par l’ampleur des coefficients) qu’ils ne le sont réellement. En d'autres termes, overfitting.
Mais les MCO fournissent généralement des estimations non biaisées et cohérentes (note de bas de page). ESL mentionne ce dernier point).
Les estimations de coefficient non biaisées / cohérentes conduisent à des prédictions non biaisées / cohérentes du résultat. Les méthodes de réduction ramènent les prédictions plus près du résultat moyen que ne le ferait MCO, laissant apparemment des informations sur la table.
Je le répète, je ne vois pas quel problème les méthodes de réduction cherchent à résoudre. Est-ce que je manque quelque chose?
Note de bas de page: Nous avons besoin de la condition de rang de colonne complète pour l'identification des coefficients. L'hypothèse exogénéité / moyenne conditionnelle zéro pour les erreurs et l'hypothèse de l'espérance conditionnelle linéaire déterminent l'interprétation que nous pouvons donner aux coefficients, mais nous obtenons une estimation non biaisée ou cohérente de quelque chose même si ces hypothèses sont fausses.
la source
Réponses:
Je suppose que vous voulez une réponse plus profonde, et je devrai laisser quelqu'un d'autre vous le fournir, mais je peux vous donner quelques réflexions sur la régression de crête d'un point de vue conceptuel vague.
La régression OLS donne des estimations de paramètres non biaisées (c'est-à-dire que si de tels échantillons sont rassemblés et que les paramètres sont estimés indéfiniment, la distribution d'échantillonnage des estimations de paramètres sera centrée sur la valeur vraie). De plus, la distribution d'échantillonnage présentera la variance la plus faible de toutes les estimations non biaisées possibles (cela signifie qu'en moyenne, une estimation du paramètre MLS sera plus proche de la valeur réelle qu'une estimation issue d'une autre procédure d'estimation non biaisée). C'est une vieille nouvelle (et je m'excuse, je sais que vous le savez bien), cependant, le fait que la variance soit inférieure ne signifie pas qu'elle soit terriblement faible. Dans certaines circonstances, la variance de la distribution d’échantillonnage peut être si importante que l’estimateur MCO est pratiquement sans valeur. (Il peut arriver que cela se produise lorsqu'il existe un degré élevé de multicolinéarité.)
Que faut-il faire dans une telle situation? Eh bien, on pourrait trouver un estimateur différent qui présente une variance inférieure (bien que, évidemment, il doit être biaisé, compte tenu de ce qui a été stipulé ci-dessus). En d’autres termes, nous négocions l’impartialité pour une variance inférieure. Par exemple, nous obtenons des estimations de paramètres qui seront probablement beaucoup plus proches de la valeur réelle, même si elles sont probablement un peu inférieures à la valeur réelle. Que ce compromis en vaille la peine est un jugement que l’analyste doit prendre face à cette situation. En tout état de cause, la régression de crête est une telle technique. La figure suivante (entièrement fabriquée) est destinée à illustrer ces idées.
Ceci fournit une introduction brève, simple et conceptuelle à la régression de crête. Je connais moins le lasso et le LAR, mais je pense que les mêmes idées pourraient être appliquées. Pour plus d’informations sur le lasso et la régression par le moindre angle , cliquez ici , le lien "Explication simple ..." est particulièrement utile. Cela fournit beaucoup plus d'informations sur les méthodes de réduction.
J'espère que cela a une certaine valeur.
la source
L'erreur d'un estimateur est une combinaison de composantes de biais et de variance (au carré) . Cependant, dans la pratique, nous voulons adapter un modèle à un échantillon limité de données et minimiser l'erreur totale de l'estimateur évalué sur l'échantillon de données dont nous disposons réellement , plutôt qu'une erreur nulle en moyenne sur une population d'échantillons donnée. (que nous n'avons pas). Nous voulons donc réduire à la fois le biais et la variance, afin de minimiser l’erreur, ce qui signifie souvent qu’il faut sacrifier l’impartialité pour réduire davantage la composante de variance. Cela est particulièrement vrai lorsqu'il s'agit de petits ensembles de données, où la variance est susceptible d'être importante.
Je pense que la différence de focalisation dépend de l’intérêt porté aux propriétés d’une procédure ou de l’obtention des meilleurs résultats sur un échantillon particulier. Les fréquentistes trouvent généralement le premier plus facile à traiter dans ce cadre; Les Bayésiens sont souvent plus concentrés sur ces derniers.
la source
Je suppose que quelques réponses peuvent être applicables:
Je ne suis pas sûr que le premier point concernant la régression de crête est vraiment une caractéristique; Je pense que je préférerais changer de modèle pour traiter de la non-identification. Même sans changement de modélisation, MCO fournit des prédictions uniques (et non biaisées / cohérentes) du résultat dans ce cas.
Je pourrais voir comment le deuxième point pourrait être utile, mais la sélection en aval peut également fonctionner dans le cas où le nombre de paramètres dépasse le nombre d'observations tout en produisant des estimations non biaisées / cohérentes.
Sur le dernier point, la sélection en avant / en arrière, à titre d’exemples, est facilement automatisée.
Donc, je ne vois toujours pas les avantages réels.
la source
Voici un exemple de base appliqué de Biostatistics
Supposons que j'étudie les relations possibles entre la présence d'un cancer de l'ovaire et un ensemble de gènes.
Ma variable dépendante est un binaire (codé comme un zéro ou un 1). Mes variables indépendantes codent les données d'une base de données protéomique.
Comme il est courant dans de nombreuses études de génétique, mes données sont beaucoup plus larges que hautes. J'ai 216 observations différentes, mais environ 4000 prédicteurs possibles.
La régression linéaire est terminée (le système est horrible et déterminé).
les techniques de sélection des fonctionnalités ne sont vraiment pas réalisables. Avec plus de 4 000 variables indépendantes différentes, toutes les techniques de sous-ensemble possibles sont complètement hors de question et même la sélection séquentielle de caractéristiques est douteuse.
La meilleure option consiste probablement à utiliser la régression logistique avec un réseau élastique.
Je souhaite effectuer une sélection de fonctionnalités (identifier les variables indépendantes importantes), de sorte que la régression de type Ridge ne convient pas vraiment.
Il est tout à fait possible que plus de 216 variables indépendantes aient une influence significative. Je ne devrais donc probablement pas utiliser de lasso (Lasso ne peut pas identifier plus de prédicteurs que vous n'en avez d'observations) ...
Entrez le filet élastique ...
la source
Un autre problème que peuvent résoudre les méthodes de réduction de la régression linéaire consiste à obtenir une estimation à faible variance (éventuellement non biaisée) d'un effet de traitement moyen (ATE) dans des études cas-témoins de grande dimension basées sur des données d'observation.
Plus précisément, dans les cas où 1) il existe un grand nombre de variables (rendant difficile la sélection de variables pour une correspondance exacte), 2) la correspondance du score de propension ne parvient pas à éliminer le déséquilibre dans les échantillons de traitement et de contrôle et 3) une multicolinéarité est présente, Plusieurs techniques, telles que le lasso adaptatif (Zou, 2006), permettent d’obtenir des estimations asymptotiquement non biaisées. Plusieurs articles ont traité de l'utilisation de la régression de lasso pour l'inférence causale et de la génération d'intervalles de confiance dans les estimations de coefficients (voir l'article suivant: Inférence après l'utilisation de Lasso pour la sélection de variables ).
la source