Je travaille sur un devoir où mon professeur aimerait que nous créons un vrai modèle de régression, simulons un échantillon de données et il va essayer de trouver notre vrai modèle de régression en utilisant certaines des techniques que nous avons apprises en classe. Nous devrons également faire de même avec un ensemble de données qu'il nous a donné.
Il dit qu'il a été en mesure de produire un modèle assez précis pour toutes les tentatives passées pour essayer de le tromper. Il y a eu des étudiants qui ont créé un modèle fou, mais il a sans doute été capable de produire un modèle plus simple qui était juste suffisant.
Comment puis-je développer un modèle difficile à trouver pour lui? Je ne veux pas être super bon marché en faisant 4 termes quadratiques, 3 observations et une variance massive? Comment puis-je produire un ensemble de données apparemment inoffensif avec un petit modèle difficile en dessous?
Il a simplement 3 règles à suivre:
Votre jeu de données doit avoir une variable "Y" et 20 variables "X" étiquetées "Y", "X1", ..., "X20".
Votre variable de réponse doit provenir d'un modèle de régression linéaire qui satisfait: où et .
Toutes variables qui ont été utilisées pour créer sont contenues dans votre jeu de données.
Il convient de noter que les 20 variables X ne doivent pas toutes être dans votre modèle réel
Je pensais utiliser quelque chose comme le modèle Fama-French 3 Factor et lui demander de commencer avec les données sur les actions (SPX et AAPL) et devoir transformer ces variables en rendements continuellement composés afin de les obséder un peu plus. Mais cela me laisse avec des valeurs manquantes dans la première observation et c'est une série chronologique (dont nous n'avons pas encore discuté en classe).
Je ne sais pas si c'est le bon endroit pour publier quelque chose comme ça. J'avais l'impression que cela pourrait générer de bonnes discussions.
Edit: je ne demande pas non plus de modèles "pré-construits" en particulier. Je suis plus curieux de connaître les sujets / outils de Statistics qui permettraient à quelqu'un de s'y prendre.
Réponses:
Faites simplement un terme d'erreur beaucoup plus grand que la partie expliquée. Par exemple: , où , et . Bien sûr, vous devez vous rappeler quelle était votre graine, afin de pouvoir prouver à votre professeur que vous aviez raison et qu'il avait tort.yi=Xi1+ϵi Xij=sin(i+j) i=1..1000 σ=1000000
Bonne chance pour identifier la phase avec ce rapport bruit / signal.
la source
Si son objectif est de récupérer le véritable processus de génération de données qui crée , tromper votre professeur est assez trivial. Pour vous donner un exemple, considérons les perturbations et les équations structurelles suivantes:Y ϵi∼N(0,1)
Notez que le vrai DGP de , qui ne comprend que , satisfait trivialement la condition 2. La condition 3 est également satisfaite, car est la seule variable à créer et vous fournissez et .Y X1 X1 Y X1 X2
Pourtant, votre professeur ne peut pas dire s'il ne doit inclure que seulement ou et pour récupérer le vrai DGP de (si vous finissez par utiliser cet exemple, changez le nombre de variables). Très probablement, il vous donnera simplement comme réponse la régression avec toutes les variables, car elles apparaîtront toutes comme des prédicteurs significatifs. Vous pouvez étendre cela à 20 variables si vous le souhaitez, vous pouvez vérifier cette réponse ici et une machine paradoxale Simpson ici.X1 X2 X1 X2 Y
Notez toutes les attentes conditionnelles , ou sont conditionnelles attentes spécifiées correctement, mais seulement reflète la véritable DGP de . Ainsi, après que votre professeur ait inévitablement échoué, il pourrait affirmer que son objectif était simplement de récupérer toute attente conditionnelle, ou d'obtenir la meilleure prédiction de etc. Vous pouvez affirmer que ce n'était pas ce qu'il a dit, car il déclare :E[Y|X1] E[Y|X2] E[Y|X1,X2] E[Y|X1] Y Y
Et vous pourriez déclencher une bonne discussion en classe sur la causalité, ce que signifie le vrai DGP et l'identifiabilité en général.
la source
Utilisez des variables avec la multicolinéarité et l'hétéroscédasticité comme le revenu par rapport à l'âge: effectuez une ingénierie des fonctionnalités douloureuse qui pose des problèmes de mise à l'échelle: donnez des NA pour certaines saupoudrées de rareté. La pièce de linéarité rend vraiment plus difficile, mais cela pourrait être douloureux. De plus, les valeurs aberrantes augmenteraient le problème pour lui dès le départ.
la source
Les termes d'interaction sont-ils autorisés? Si c'est le cas, définissez tous les coefficients d'ordre inférieur à 0 et construisez le modèle entier à partir des interactions du N-ordre (par exemple, des termes comme ). Pour 20 régresseurs, le nombre d'interactions possibles est astronomiquement important et il serait très difficile de trouver uniquement celles que vous avez incluses.X5X8X12X13
la source
Choisissez n'importe quel modèle linéaire. Donnez-lui un ensemble de données où la plupart des échantillons sont autour de x = 0. Donnez-lui quelques échantillons autour de x = 1 000 000.
La bonne chose ici que les échantillons autour de x = 1 000 000 ne sont pas des valeurs aberrantes. Ils sont générés à partir de la même source. Cependant, comme les échelles sont si différentes, les erreurs autour de 1M ne correspondront pas aux erreurs autour de 0.
Prenons un exemple. Notre modèle est simplement
Nous avons un ensemble de données de n échantillons, près de x = 0. Nous choisirons 2 points supplémentaires dans des valeurs "suffisamment éloignées". Nous supposons que ces deux points ont une erreur.
Une valeur "suffisamment éloignée" est telle que l'erreur pour une estimation qui ne passe pas directement dans ces deux points est beaucoup plus grande que l'erreur du reste de l'ensemble de données.
Par conséquent, la régression linéaire choisira des coefficients qui passeront en ces deux points et manqueront le reste de l'ensemble de données et seront différents du modèle de soulignement.
Voir l'exemple suivant. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}
Ceci est au format de la série WolfarmAlpha. Dans chaque paire, le premier élément est x et le second a été généré dans Excel en utilisant la formule = A2 + NORMINV (RAND (), 0,2000).
Par conséquent, et nous ajoutons un bruit aléatoire normalement distribué avec une moyenne de 0 et un écart-type de 2000. C'est beaucoup de bruit près de zéro mais un petit près de million.β0=1,β1=1
En utilisant Wolfram Alpha, vous obtenez la régression linéaire suivante , ce qui est assez différent de la distribution de soulignement dey = xy=178433.x−426805 y=x
la source