J'utilise scikit-learn de Python pour former et tester une régression logistique.
scikit-learn renvoie les coefficients de régression des variables indépendantes, mais il ne fournit pas les erreurs standard des coefficients. J'ai besoin de ces erreurs standard pour calculer une statistique de Wald pour chaque coefficient et, à son tour, comparer ces coefficients les uns aux autres.
J'ai trouvé une description de la façon de calculer les erreurs standard pour les coefficients d'une régression logistique ( ici ), mais elle est quelque peu difficile à suivre.
Si vous connaissez une explication simple et succincte de la façon de calculer ces erreurs standard et / ou pouvez m'en fournir une, j'apprécierais vraiment! Je ne parle pas d'un code spécifique (bien que n'hésitez pas à publier tout code qui pourrait être utile), mais plutôt une explication algorithmique des étapes impliquées.
Réponses:
Votre logiciel vous donne-t-il une matrice de covariance des paramètres (ou variance-covariance)? Si c'est le cas, les erreurs standard sont la racine carrée de la diagonale de cette matrice. Vous voudrez probablement consulter un manuel (ou google pour les notes de cours universitaires) pour savoir comment obtenir la matrice pour les modèles linéaires et linéaires généralisés.Vβ
la source
Les erreurs standard des coefficients du modèle sont les racines carrées des entrées diagonales de la matrice de covariance. Considérer ce qui suit:
(REMARQUE: cela suppose un modèle avec une interception.)
La matrice de covariance peut s'écrire:
Cela peut être implémenté avec le code suivant:
Tout cela étant dit, ce
statsmodels
sera probablement un meilleur package à utiliser si vous voulez accéder à BEAUCOUP de diagnostics "prêts à l'emploi".la source
V = np.product(predProbs, axis=1);
covLogit = np.linalg.pinv(np.dot(X_design.T * V), X_design)
Si vous êtes intéressé à faire de l'inférence, alors vous voudrez probablement jeter un œil aux modèles de statistiques . Des erreurs standard et des tests statistiques communs sont disponibles. Voici un exemple de régression logistique .
la source