Est-ce que je cherche une distribution plus sage pour la variable indépendante en question, ou pour réduire l'effet des valeurs aberrantes, ou autre
Stratégies de modélisation de régression
Est-ce que je cherche une distribution plus sage pour la variable indépendante en question, ou pour réduire l'effet des valeurs aberrantes, ou autre
Je me demande quel est l'intérêt de prendre une variable prédictive continue et de la diviser (par exemple, en quintiles), avant de l'utiliser dans un modèle. Il me semble que, en regroupant la variable, nous perdons des informations. Est-ce simplement pour que nous puissions modéliser des effets...
Puisque RF peut gérer la non-linéarité mais ne peut pas fournir de coefficients, serait-il sage d'utiliser une forêt aléatoire pour rassembler les caractéristiques les plus importantes, puis de les brancher dans un modèle de régression linéaire multiple afin d'obtenir leurs coefficients?...
Est-il possible d'ajuster un modèle de régression logistique? J'ai vu une vidéo disant que si ma zone sous la courbe ROC est supérieure à 95%, il est très probable qu'elle soit sur-ajustée, mais est-il possible de sur-adapter un modèle de régression
Je réfléchis à la discussion autour de cette question et en particulier au commentaire de Frank Harrell selon lequel l'estimation de la variance dans un modèle réduit (c'est-à-dire à partir duquel un certain nombre de variables explicatives ont été testées et rejetées) devrait utiliser les degrés...
Comme nous le savons tous, il existe 2 méthodes pour évaluer le modèle de régression logistique et elles testent des choses très différentes Puissance prédictive: Obtenez une statistique qui mesure dans quelle mesure vous pouvez prédire la variable dépendante en fonction des variables...
Supposons que j'ai formé plusieurs modèles sur l'ensemble d'entraînement, choisissez le meilleur en utilisant l'ensemble de validation croisée et les performances mesurées sur l'ensemble d'essai. Alors maintenant, j'ai un dernier meilleur modèle. Dois-je le recycler sur toutes mes données...
Mis à part certaines circonstances uniques où nous devons absolument comprendre la relation moyenne conditionnelle, quelles sont les situations où un chercheur devrait choisir l'OLS plutôt que la régression quantile? Je ne veux pas que la réponse soit "s'il n'y a aucune utilité à comprendre les...
J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement,...
Les méthodes algorithmiques de sélection des variables par étapes tendent à sélectionner des modèles qui biaisent plus ou moins toutes les estimations dans les modèles de régression ( ββ\beta s et leurs SE, valeurs p , statistiques F , etc.), et sont à peu près aussi susceptibles d'exclure les...
Frank Harrell a lancé un blog ( Pensée statistique) . Dans son premier article , il énumère certaines caractéristiques clés de sa philosophie statistique. Entre autres éléments, il comprend: Faites de la taille de l'échantillon une variable aléatoire lorsque cela est possible Que signifie «faire de...
Ceci est mon premier article sur StackExchange, mais je l'utilise comme ressource depuis un bon moment, je ferai de mon mieux pour utiliser le format approprié et apporter les modifications appropriées. C'est également une question en plusieurs parties. Je ne savais pas si je devais diviser la...
Dans l'analyse discriminante, la variable dépendante est catégorielle, mais puis-je utiliser une variable catégorielle (par exemple, le statut résidentiel: rural, urbain) avec une autre variable continue comme variable indépendante dans l'analyse discriminante
Après avoir demandé des éclaircissements sur les coefficients du modèle linéaire ici, j'ai une question de suivi concernant les coefficients de niveaux de facteur non significatifs (valeur p élevée). Exemple: si mon modèle linéaire comprend un facteur à 10 niveaux et que seulement 3 de ces niveaux...
En utilisant ces données: head(USArrests) nrow(USArrests) Je peux faire un PCA ainsi: plot(USArrests) otherPCA <- princomp(USArrests) Je peux intégrer les nouveaux composants otherPCA$scores et la proportion de variance expliquée par les composantes avec summary(otherPCA) Mais que faire si je...
Je suis confondu avec l'hypothèse de linéarité au logit pour les variables prédictives continues dans l'analyse de régression logistique. Avons-nous besoin de vérifier la relation linéaire lors du dépistage des prédicteurs potentiels en utilisant une analyse de régression logistique univariable?...
L'appariement par score de propension est utilisé pour faire des inférences causales dans les études observationnelles (voir l'article de Rosenbaum / Rubin ). Quelle est l'intuition simple derrière pourquoi cela fonctionne? En d'autres termes, pourquoi si nous nous assurons que la probabilité de...
Supposons que nous ayons covariables x 1 , … , x n et une variable de résultat binaire y . Certaines de ces covariables sont catégorielles avec plusieurs niveaux. D'autres sont continus. Comment choisiriez-vous le "meilleur" modèle? En d'autres termes, comment choisissez-vous les covariables à...
L'une des hypothèses de régression logistique est la linéarité du logit. Donc, une fois mon modèle opérationnel, je teste la non-linéarité en utilisant le test de Box-Tidwell. Un de mes prédicteurs continus (X) s'est révélé positif pour la non-linéarité. Que dois-je faire ensuite? Comme il s'agit...
J'apprends actuellement moi-même comment faire la classification, et plus précisément, j'examine trois méthodes: les machines à vecteurs de support, les réseaux de neurones et la régression logistique. Ce que j'essaie de comprendre, c'est pourquoi la régression logistique fonctionnerait mieux que...