Quelles sont les «valeurs de départ» dans la fonction glm ()?

12

Quels sont les paramètres start, etastart, mustartdans la fonction GLM () ? J'ai cherché dans les documents et sur Internet, mais je n'ai trouvé aucune explication claire de ce que cela signifie.

Cela ressemble aux "valeurs initiales" bayésiennes pour les chaînes, mais je doute que cela soit lié, car la fonction glm () dans R est des statistiques fréquentistes ...

Curieuse
la source

Réponses:

10

Cela a juste à voir avec la technique d'estimation - comment un ensemble d'estimations pour les paramètres du modèle est obtenu. Un modèle linéaire généralisé est ajusté par les moindres carrés itérativement repondérés. Un ensemble arbitraire de poids est choisi pour commencer (souvent tous égaux pour commencer), puis des estimations des paramètres dans le prédicteur linéaire sont choisies pour minimiser la somme pondérée des carrés des résidus. Ces paramètres estimés dans le prédicteur linéaire sont utilisés pour estimer un nouveau vecteur de moyennes. À partir de cela, un nouvel ensemble de pondérations est dérivé - par exemple, selon la famille et la fonction de lien utilisées, la variance de la réponse peut être proportionnelle à la moyenne de la réponse - les pondérations seront donc inversement proportionnelles à la moyenne. Ce nouvel ensemble de poids est utilisé dans une nouvelle itération de l'ensemble de la procédure.

Ainsi, les trois arguments de glm () que vous avez demandés ne sont que des moyens pour l'utilisateur de démarrer la procédure à un point arbitraire au lieu de lui permettre de choisir son propre point de départ par défaut. À partir du fichier d'aide que vous avez lié à:

  • start - valeurs de départ pour les paramètres du prédicteur linéaire.
  • etastart - valeurs de départ pour le prédicteur linéaire.
  • mustart - valeurs de départ pour le vecteur de moyennes.
Peter Ellis
la source
Merci Peter! Cela ressemble complètement à la procédure bayésienne MCMC! Je pensais que les paquets fréquentistes étaient plus intelligents et ne fonctionnaient pas de cette façon :-) C'est ce qui m'embarrassait ... pourquoi diable y a-t-il quelque chose comme des valeurs initiales dans le paquet fréquentiste :-)
Curieux
1
Parfois, sans valeurs initiales, vous ne pouvez pas converger ou converger vers un maximum local qui n'est pas une solution optimale à l'échelle mondiale. Il est donc bon d'avoir la possibilité d'essayer différentes valeurs de départ.
Peter Ellis
Je commence à avoir le sentiment que même glm()est bayésien :-)
Curieux
4
@Curious Ce n'est pas particulièrement bayésien. Tout ce que vous demandez, c'est que le progiciel trouve un point particulier via une technique de recherche. Les valeurs de départ indiquent simplement par où commencer - cela ne donne pas de poids particulier à cette réponse, mais cela peut aider si elle se promène dans un espace compliqué. Il n'y a rien de particulièrement bayésien dans "Je
partirais