J'essaie de déterminer si de simples probabilités fonctionneront pour mon problème ou s'il vaudra mieux utiliser (et en savoir plus) des méthodes plus sophistiquées comme la régression logistique.
La variable de réponse dans ce problème est une réponse binaire (0, 1). J'ai un certain nombre de variables prédictives qui sont toutes catégoriques et non ordonnées. J'essaie de déterminer quelles combinaisons des variables prédictives produisent la proportion la plus élevée de 1. Ai-je besoin d'une régression logistique? En quoi serait-il avantageux de simplement calculer les proportions dans mon ensemble d'échantillons pour chaque combinaison des prédicteurs catégoriels?
r
probability
logistic
Rachel
la source
la source
Réponses:
Jusqu'à une imprécision numérique, la régression logistique donnera exactement les mêmes ajustements que les pourcentages tabulés. Par conséquent, si vos variables indépendantes sont des objets facteurs
factor1
, etc., et que les résultats dépendants (0 et 1) le sontx
, alors vous pouvez obtenir les effets avec une expression commeComparez cela à
À titre d'exemple, générons des données aléatoires:
Le résumé est obtenu avec
Sa sortie comprend
Pour référence future, l'estimation des facteurs aux niveaux (1,2,0) dans la ligne 6 de la sortie est de 0,5.
La régression logistique abandonne ainsi ses coefficients:
Pour les utiliser, nous avons besoin de la fonction logistique:
Pour obtenir, par exemple, l'estimation des facteurs aux niveaux (1,2,0), calculer
(Remarquez comment toutes les interactions doivent être incluses dans le modèle et tous les coefficients associés doivent être appliqués pour obtenir une estimation correcte.) Le résultat est
d'accord avec les résultats de
aggregate
. (Le titre "(Intercept)" dans la sortie est un vestige de l'entrée et n'a aucun sens pour ce calcul.)Les mêmes informations sous une autre forme apparaissent dans la sortie de
table
. Par exemple, la sortie (longue) decomprend ce panneau:
La colonne pour21/(21+21)=0.5 1
factor1
= 1 correspond aux trois facteurs aux niveaux (1,2,0) et montre que des valeurs de égal , en accord avec ce que nous lisons à partir de et .1x
aggregate
glm
Enfin, une combinaison de facteurs produisant la proportion la plus élevée dans l'ensemble de données est commodément obtenue à partir des résultats de
aggregate
:la source
Pour un aperçu rapide de la proportion de réponses binaires dans chaque catégorie et / ou conditionnelle à plusieurs catégories, les tracés graphiques peuvent être utiles. En particulier, pour visualiser simultanément des proportions conditionnées par de nombreuses variables indépendantes catégoriques, je suggérerais Mosaic Plots .
Voici un exemple tiré d'un article de blog, Comprendre les graphiques basés sur la zone: graphiques en mosaïque à partir des graphiques statistiques et plus de blog. Cet exemple visualise la proportion de survivants sur le Titanic en bleu, en fonction de la classe du passager. On peut évaluer simultanément la proportion de survivants, tout en appréciant le nombre total de passagers dans chacun des sous-groupes (informations utiles à coup sûr, surtout lorsque certains sous-groupes sont rares et que nous nous attendons à des variations plus aléatoires).
(source: theusrus.de )
On peut ensuite conditionner les mosaïques suivantes à plusieurs variables indépendantes catégorielles. L'exemple suivant du même article de blog dans un résumé visuel rapide montre que tous les enfants passagers des première et deuxième classes ont survécu, tandis que dans la troisième classe, les enfants ne s'en sortaient pas aussi bien. Il montre également clairement que les femmes adultes avaient un taux de survie beaucoup plus élevé que les hommes dans chaque classe, bien que la proportion de femmes survivantes entre les classes ait diminué sensiblement de la première à la deuxième à la troisième classe (puis était encore relativement élevée pour l'équipage, bien que encore une fois, il n'y a pas beaucoup de femmes membres d'équipage, étant donné l'étroitesse de la barre).
(source: theusrus.de )
Il est étonnant de voir combien d'informations sont affichées, ce sont des proportions en quatre dimensions (classe, adulte / enfant, sexe et proportion de survivants)!
Je suis d'accord si vous êtes intéressé par la prédiction ou une explication plus causale en général, vous voudrez vous tourner vers une modélisation plus formelle. Les graphiques peuvent être des indices visuels très rapides quant à la nature des données et peuvent fournir d'autres informations souvent manquées lors de l'estimation simple des modèles de régression (en particulier lors de l'examen des interactions entre les différentes variables catégorielles).
la source
Nb
? Je dis toujours mieux avec les chiffres aussi!Selon vos besoins, vous pouvez constater que le partitionnement récursif fournit une méthode facile à interpréter pour prédire une variable de résultat. Pour une introduction R à ces méthodes, consultez la page Modèle basé sur l' arborescence de Quick-R . Je préfère généralement l'
ctree()
implémentation dans le package de partie de R car on n'a pas à se soucier de l'élagage, et il produit de jolis graphiques par défaut.Cela tomberait dans la catégorie des algorithmes de sélection des caractéristiques suggérée dans une réponse précédente, et donne généralement des prévisions aussi bonnes sinon meilleures que la régression logistique.
la source
Si vous avez moins de données, vous voulez apprendre moins de paramètres. Vous pouvez réduire le nombre de paramètres en supposant, par exemple, que les configurations de prédicteurs individuels ont des effets cohérents sur la variable de réponse.
Si vous pensez que vos prédicteurs sont indépendants les uns des autres, la régression logistique est l'algorithme unique qui fait ce qu'il faut. (Même s'ils ne sont pas indépendants, cela peut quand même assez bien fonctionner.)
En résumé, la régression logistique fait une hypothèse sur l'influence indépendante des prédicteurs, ce qui réduit le nombre de paramètres du modèle et produit un modèle facile à apprendre.
la source
Vous devriez regarder les algorithmes de sélection des fonctionnalités. Une méthode qui convient à votre cas (classification binaire, variables catégorielles) est la méthode de la «pertinence minimale de redondance maximale» (mRMR). Vous pouvez l'essayer rapidement en ligne à http://penglab.janelia.org/proj/mRMR/
la source
response,predictor1,predictor2,predictor3 <line break here> 1,5,4,3 <line break here> 0,5,3,-1 <line break here> 1,1,2,3
Je travaille dans le domaine de la notation de crédit, où ce qui est présenté ici comme un cas étrange est la norme.
Nous utilisons la régression logistique et convertissons les variables catégorielles et continues en poids de preuve (WOE), qui sont ensuite utilisés comme prédicteurs dans la régression. Beaucoup de temps est consacré au regroupement des variables catégorielles et à la discrétisation (regroupement / classement) des variables continues.
Le poids de la preuve est un simple calcul. C'est le journal des cotes pour la classe, moins le journal des cotes pour la population:
WOE = ln (Bon (Classe) / Mauvais (Classe)) - ln (Bon (TOUS) / Mauvais (TOUS)) méthodologie de transformation standard pour presque tous les modèles de notation de crédit construits en utilisant la régression logistique. Vous pouvez utiliser les mêmes nombres dans une approche par morceaux.
La beauté de celui-ci est que vous saurez toujours si les coefficients attribués à chaque WOE ont du sens. Les coefficients négatifs sont contraires aux schémas contenus dans les données et résultent généralement de la multicolinéarité; et des coefficients supérieurs à 1,0 indiquent une surcompensation. La plupart des coefficients sortiront quelque part entre zéro et un.
la source