J'ai suivi un cours d'apprentissage automatique à mon collège. Dans l'un des questionnaires, cette question a été posée.
Modèle 1:
Modèle 2:Lequel des modèles ci-dessus correspondrait mieux aux données? (supposons que les données peuvent être modélisées en utilisant une régression linéaire)
La bonne réponse (selon le professeur) est que les deux modèles fonctionneraient aussi bien. Cependant, je pense que le premier modèle conviendrait mieux.
C'est la raison de ma réponse. Le deuxième modèle, qui peut être réécrit sous la forme , ne serait pas le même que le premier modèle. est en fait une parabole, et a donc une valeur minimale ( dans ce cas). Maintenant, à cause de cela, la plage de dans le premier modèle est supérieure à la plage de dans le deuxième modèle. Par conséquent, si les données étaient telles que le meilleur ajustement avait une pente inférieure à , le deuxième modèle se comporterait très mal par rapport au premier. Cependant, dans le cas où la pente du meilleur ajustement était supérieure à , les deux modèles fonctionneraient aussi bien.
Le premier est-il donc meilleur, ou les deux sont-ils exactement les mêmes?
Réponses:
Le modèle 2 peut s'écrire: Cela semble similaire au modèle 1, juste avec une notation différente pour les hyperparamètres ( θ , β ). Cependant, pour le modèle 1 , on peut écrire θ = ( X
Mais puisque dans le modèle 2 , nous avons que alors que vous avez mentionné en effet la gamme de β doit appartenir à [ - 0,25 , + ∞ ] pour θ ∈ R . Ce qui entraînera une différence dans ces 2 modèles.
Ainsi , dans le modèle 2 vous Contraindre votre estimation du coefficient contrairement modèle 1. Pour le rendre plus clair, il convient de noter que dans le modèle est obtenue en minimisant la fonction de perte carré θ = arg min θ ∈ R ( y - X θ )θ^
Cependantdans le modèle 2l'estimation est obtenue par
β =arg min β ≥ - 0,25 (y-Xβ)
la source
Je ne suis pas sûr de comprendre votre raisonnement. Si vous prenez:
et y = θ x + ϵ
et estimez et θ en utilisant une régression linéaire simple, vous obtiendrez α = θ . De plus, comme la méthodologie est exactement la même, il n'y a aucune différence dans la valeur R 2 que vous obtiendriez dans l'une ou l'autre équation. La valeur sous-jacente de θ dans la première équation sera bien sûr différente, puisque α = θ + θ 2 , mais cela n'a rien à voir avec l'ajustement.α θ α θ R2 θ α=θ+θ2
la source