Quelle est la différence entre les modèles Logit et Probit ? Je suis plus intéressé par savoir quand utiliser la régression logistique et quand utiliser Probit. S'il existe une littérature qui le définit en utilisant R , cela serait également
Désigne tout modèle dans lequel une variable aléatoire est liée à une ou plusieurs variables aléatoires par une fonction linéaire dans un nombre fini de paramètres.
Quelle est la différence entre les modèles Logit et Probit ? Je suis plus intéressé par savoir quand utiliser la régression logistique et quand utiliser Probit. S'il existe une littérature qui le définit en utilisant R , cela serait également
Quelle est la différence entre la régression linéaire et la régression logistique? Quand utiliseriez-vous
J'utilise des modèles de régression linéaire et me demande quelles sont les conditions pour supprimer le terme d'interception. En comparant les résultats de deux régressions différentes où l’une a l’interception et l’autre pas, je remarque que le de la fonction sans interception est beaucoup plus...
Dans un modèle linéaire simple avec une seule variable explicative, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Je trouve que la suppression du terme d'interception améliore grandement l'ajustement (la valeur de va de 0,3 à 0,9). Cependant, le terme d'interception...
Le coefficient de corrélation de Pearson de x et y est le même, que vous calculiez pearson (x, y) ou pearson (y, x). Cela suggère que faire une régression linéaire de y étant donné x ou x étant donné y devrait être la même chose, mais je ne pense pas que ce soit le cas. Quelqu'un peut-il éclairer...
En général, que veut dire que la fraction de la variance dans une analyse comme ACP est expliquée par la première composante principale? Est-ce que quelqu'un peut expliquer cela intuitivement, mais aussi donner une définition mathématique précise de ce que "variance expliquée" signifie en termes...
Quelles parcelles de diagnostic (et peut-être des tests formels) trouvez-vous le plus informatif pour les régressions où le résultat est une variable de comptage? Je suis particulièrement intéressé par les modèles de Poisson et binomiaux négatifs, ainsi que par leurs homologues à gonflement nul et...
La distribution gamma peut prendre une assez grande variété de formes et, étant donné le lien entre la moyenne et la variance à travers ses deux paramètres, elle semble appropriée pour traiter l'hétéroscédasticité dans des données non négatives, de manière à ce que les log ne vous faites pas sans...
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99,...
J'ai un ensemble de données avec environ 30 variables indépendantes et j'aimerais construire un modèle linéaire généralisé (GLM) pour explorer la relation entre elles et la variable dépendante. Je suis conscient que la méthode qui m'a été enseignée pour cette situation, la régression par étapes,...
J'ai remarqué que l'intervalle de confiance pour les valeurs prédites dans une régression linéaire tend à être étroit autour de la moyenne du prédicteur et de la graisse autour des valeurs minimale et maximale du prédicteur. Ceci peut être vu dans les graphiques de ces 4 régressions linéaires: Je...
Quelle est la différence entre les termes "fonction de lien" et "fonction de lien canonique"? De plus, y a-t-il des avantages (théoriques) à utiliser l'un par rapport à l'autre? Par exemple, une variable de réponse binaire peut être modélisée à l'aide de nombreuses fonctions de liaison telles que...
Comment interpréter les principaux effets (coefficients du facteur factice) dans une régression de Poisson? Supposons l'exemple suivant: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13,...
En réponse à cette question, John Christie a suggéré d'évaluer l'adéquation des modèles de régression logistique en évaluant les résidus. Je sais comment interpréter les résidus dans les MCO, ils sont à la même échelle que le DV et très clairement la différence entre y et le y prévue par le modèle....
Il est souvent recommandé de prendre la racine carrée lorsque vous avez des données de comptage. (Pour des exemples sur CV, voir la réponse de @ HarveyMotulsky ici ou celle de @ whuber ici .) Par contre, lors de l'ajustement d'un modèle linéaire généralisé avec une variable de réponse distribuée...
Il existe plusieurs discussions sur ce site pour des recommandations de livres sur les statistiques d’introduction et l’apprentissage automatique, mais je cherche un texte sur les statistiques avancées, comprenant, par ordre de priorité: maximum de vraisemblance, modèles linéaires généralisés,...
J'essaie de comprendre la philosophie qui sous-tend l'utilisation d'un modèle linéaire généralisé (GLM) par rapport à un modèle linéaire (LM). J'ai créé un exemple de jeu de données ci-dessous où: bûche( y) = x + εbûche(y)=X+ε\log(y) = x + \varepsilon L'exemple n'a pas l'erreur en fonction de la...
Je traite de données linéaires avec des valeurs aberrantes, dont certaines sont à plus de 5 écarts-types de la droite de régression estimée. Je cherche une technique de régression linéaire qui réduit l’influence de ces points. Jusqu'ici, ce que j'ai fait est d'estimer la droite de régression avec...
Comment sont-ils toutes les versions de la même méthode statistique de
Supposons que j'ai un objet de classe glm(correspondant à un modèle de régression logistique) et j'aimerais transformer les probabilités prédites données en predict.glmutilisant l'argument type="response"en réponses binaires, c'est-à-dire ou Y = 0 . Quel est le moyen le plus rapide et le plus...