Lorsque j'utilise des modèles de régression, je me sens réticent à utiliser par défaut des hypothèses d'association linéaire; au lieu de cela, j'aime explorer la forme fonctionnelle des relations entre les variables dépendantes et explicatives en utilisant une régression de lissage non paramétrique (par exemple , des modèles additifs généralisés , lowess / lowess , lissage de la ligne courante , etc.) avant d'estimer un modèle paramétrique en utilisant, le cas échéant, une régression des moindres carrés non linéaires pour estimer les paramètres des fonctions suggérées par le modèle non paramétrique.
Quelle est la bonne façon de penser à effectuer une validation croisée dans la phase de régression de lissage non paramétrique d'une telle approche? Je me demande si je pourrais rencontrer une situation où dans l'échantillon de retenue aléatoire A une relation approximée par une fonction de charnière linéaire "bâton cassé" pourrait être évidente, tandis que l'échantillon de retenue B suggère une relation qui serait mieux approchée par une fonction de charnière à seuil parabolique.
Prendrait-on une approche non exhaustive pour retenir une partie aléatoire des données, effectuer la régression non paramétrique, interpréter des formes fonctionnelles plausibles pour le résultat, et répéter cela quelques fois (gérables par l'homme) et des formes fonctionnelles plausibles mentalement ?
Ou faudrait-il adopter une approche exhaustive (par exemple LOOCV), et utiliser un algorithme pour «lisser tous les lissages» et utiliser le plus lisse des lissages pour informer des formes fonctionnelles plausibles? (Bien que, à la réflexion, je pense que LOOCV est peu susceptible d'entraîner des relations fonctionnelles très différentes, car une forme fonctionnelle sur un échantillon suffisamment grand est peu susceptible d'être modifiée par un seul point de données.)
Mes applications impliqueront généralement un nombre gérable de variables prédictives (une poignée à quelques dizaines, par exemple), mais mes tailles d'échantillons vont de quelques centaines à quelques centaines de milliers. Mon objectif est de produire un modèle intuitivement communiqué et facilement traduit qui pourrait être utilisé pour faire des prédictions par des personnes avec des ensembles de données autres que le mien, et qui n'incluent pas les variables de résultat.
Les références dans les réponses sont les bienvenues.
Réponses:
Il me semble qu'il y a deux confusions dans votre question:
Premièrement, la régression linéaire (moindres carrés) ne nécessite pas de relation linéaire dans les variables indépendantes , mais dans les paramètres .
Doncy= a + b ⋅ xe- x+ c ⋅z1 +X2 peut être estimé par les moindres carrés ordinaires (y est une fonction linéaire des paramètres une , b , c ), tandis que y=a+b⋅x+b2⋅z ne peux pas (y n'est pas linéaire dans le paramètre b ).
Deuxièmement, comment déterminez-vous un modèle fonctionnel "correct" à partir d'un lisseur, c'est-à-dire comment passez-vous de l'étape 1 à l'étape 2?
Pour autant que je sache, il n'y a aucun moyen de déduire "quelles fonctions des régresseurs utiliser" à partir de techniques de lissage telles que les splines, les réseaux de neurones, etc. Sauf peut-être en traçant les sorties lissées et en déterminant les relations par intuition, mais cela ne fonctionne pas '' Cela me semble très robuste, et il semble que l'on n'a pas besoin de lissage pour cela, juste des nuages de points.
Si votre objectif final est un modèle de régression linéaire et que votre problème est que vous ne savez pas exactement quelle forme fonctionnelle des régresseurs doit être utilisée, il vaudrait mieux équiper directement un modèle de régression linéaire régularisé (tel que LASSO ) avec un large expansion de base des régresseurs d'origine (tels que les polynômes des régresseurs, les exponentielles, les logs, ...). La procédure de régularisation devrait ensuite éliminer les régresseurs inutiles, vous laissant avec un modèle (si tout va bien) paramétrique. Et vous pouvez utiliser la validation croisée pour déterminer le paramètre de pénalisation optimal (qui détermine les degrés de liberté réels du modèle).
Vous pouvez toujours utiliser des régressions non paramétriques comme référence pour l'erreur de généralisation, comme moyen de vérifier que votre modèle linéaire régularisé prédit des données externes tout aussi bien qu'un lissage non paramétrique.
la source