Si je veux un modèle interprétable, existe-t-il d'autres méthodes que la régression linéaire?

18

J'ai rencontré des statisticiens qui n'utilisent jamais de modèles autres que la régression linéaire pour la prédiction, car ils croient que les "modèles ML" tels que la forêt aléatoire ou le renforcement du gradient sont difficiles à expliquer ou "non interprétables".

Dans une régression linéaire, étant donné que l'ensemble des hypothèses est vérifié (normalité des erreurs, homoscédasticité, pas de multi-colinéarité), les tests t fournissent un moyen de tester la signification des variables, tests qui, à ma connaissance, ne sont pas disponibles dans le forêts aléatoires ou modèles de renforcement de gradient.

Par conséquent, ma question est de savoir si je veux modéliser une variable dépendante avec un ensemble de variables indépendantes, par souci d'interprétabilité, dois-je toujours utiliser la régression linéaire?

Victor
la source
6
Cela dépend de ce que vous considérez toujours comme linéaire. Les modèles linéaires généralisés et les modèles additifs généralisés fonctionnent toujours sur la base d'une composante linéaire estimée, mais peuvent modéliser une grande variété de relations.
Frans Rodenburg
2
Cela dépend aussi de ce que vous entendez par interprétable. Diverses façons de «jeter un œil dans la boîte noire» ont été proposées pour les modèles d'apprentissage automatique, mais elles peuvent ou non convenir à vos objectifs.
user20160
5
Je ne vois pas très bien ce que les statistiques inférentielles et les tests t ont à voir avec l'interprétabilité, ce que l'OMI concerne principalement les estimations des coefficients.
S.Kolassa - Reinstate Monica
3
@StephanKolassa "Interretability" peut également concerner la forme de la fonction . Par exemple, les estimations de coefficient produites par l'ajustement algorithmique de la courbe polynomiale fractionnaire dans les modèles de régression (que ce soit la régression linéaire, le GLM ou autre), tout en obtenant un bon ajustement , sont presque certainement anti-intuitives: pouvez-vous vous rappeler la gamme de formes produites par des modèles de la forme , et donc interpréter la relation entre et impliquée par vos estimations de coefficient? yi=β0+β1xi3/5+β2xi1/3+β3xi3+εiyx
Alexis
2
@UserX Ce que vous décrivez est toujours une régression linéaire (c'est-à-dire linéaire dans les paramètres). Contraste avec : le premier est un modèle de régression linéaire, tandis que le second ne peut pas être estimé par régression linéaire. yi=β0+β1xi+β2xi2+εiyi=β0+β1xi+xiβ2+εi
Alexis

Réponses:

29

Il m'est difficile de croire que vous avez entendu des gens dire cela, car ce serait stupide de le dire. C'est comme dire que vous n'utilisez que le marteau (y compris pour percer des trous et pour changer les ampoules), car il est simple à utiliser et donne des résultats prévisibles.

Deuxièmement, la régression linéaire n'est pas toujours "interprétable". Si vous avez un modèle de régression linéaire avec de nombreux termes polynomiaux ou simplement beaucoup de caractéristiques, il serait difficile à interpréter. Par exemple, supposons que vous ayez utilisé les valeurs brutes de chacun des 784 pixels de MNIST † comme fonctionnalités. Le fait de savoir que le pixel 237 a un poids égal à -2311,67 vous dirait-il quelque chose sur le modèle? Pour les données d'images, il serait beaucoup plus facile de comprendre les cartes d'activation du réseau de neurones convolutionnels.

Enfin, il existe des modèles qui sont également interprétables, par exemple la régression logistique, les arbres de décision, l'algorithme naïf de Bayes et bien d'autres.

† - Comme remarqué par @Ingolifs dans le commentaire, et comme discuté dans ce fil , MNIST n'est peut-être pas le meilleur exemple, car il s'agit d'un ensemble de données très simple. Pour la plupart des ensembles de données d'images réalistes, la régression logistique ne fonctionnerait pas et l'examen des poids ne donnerait aucune réponse simple. Cependant, si vous regardez de plus près les poids dans le fil lié, leur interprétation n'est pas simple non plus, par exemple les poids pour prédire "5" ou "9" ne montrent aucun motif évident (voir l'image ci-dessous, copiée de l'autre fil) ).

Tim
la source
2
Je pense que cette réponse fait un bon travail en montrant à quel point la régression logistique sur MNIST peut être expliquée clairement.
Ingolifs
1
@Ingolifs est d'accord, mais il s'agit d'une carte d'activation, vous pouvez faire de même pour le réseau neuronal.
Tim
Quel que soit son nom, il donne une explication claire de ce que la régression logistique utilise pour prendre ses décisions d'une manière que vous n'obtenez pas vraiment pour les cartes d'activation des réseaux de neurones.
Ingolifs
1
@Ingolifs MNIST n'est peut-être pas le meilleur exemple car c'est très simple, mais le fait est que vous utiliseriez la même méthode pour le réseau de neurones.
Tim
11

L'arbre de décision serait un autre choix. Ou régression Lasso pour créer un système clairsemé.

Vérifiez ce chiffre dans le livre Introduction à l'apprentissage statistique . http://www.sr-sv.com/wp-content/uploads/2015/09/STAT01.pngentrez la description de l'image ici

Haitao Du
la source
Qu'est-ce que le livre "ISL"?
donlan
1
@donlan amazon.com/… merci pour la suggestion de réponse révisée.
Haitao Du
aucun problème! allait le chercher après avoir lu ce fil
donlan
7

Je serais d'accord avec les réponses de Tim et mkt - les modèles ML ne sont pas nécessairement ininterprétables. Je voudrais vous diriger vers les explications descriptives de mAchine Learning, le package DALEX R, qui est consacré à rendre les modèles ML interprétables.

babelproofreader
la source
1
le package DALEX est en effet très intéressant, savez-vous s'il existe quelque chose de similaire pour Python?
Victor
@Victor Je ne connais pas de version Python de DALEX, mais vous pouvez essayer d'appeler R depuis Python en utilisant rpy2.readthedocs.io/en/version_2.8.x/introduction.html par exemple.
babelproofreader
6

Non, c'est inutilement restrictif. Il existe une large gamme de modèles interprétables comprenant non seulement (comme le dit Frans Rodenburg) des modèles linéaires, des modèles linéaires généralisés et des modèles additifs généralisés, mais aussi des méthodes d'apprentissage automatique utilisées pour la régression. J'inclus des forêts aléatoires, des machines boostées par gradient, des réseaux de neurones, et plus encore. Ce n'est pas parce que vous n'obtenez pas de coefficients des modèles d'apprentissage automatique similaires à ceux des régressions linéaires que leur fonctionnement ne peut pas être compris. Cela prend juste un peu plus de travail.

Pour comprendre pourquoi, je vous recommande de lire cette question: Obtenir des connaissances à partir d'une forêt aléatoire . Ce qu'il montre, c'est comment vous pouvez approcher pour rendre presque n'importe quel modèle d'apprentissage automatique interprétable.

mkt - Réintégrer Monica
la source