Je travaille sur un projet et j'ai du mal à décider quel algorithme choisir regression
. Je veux savoir dans quelles conditions choisir un linear regression
ou Decision Tree regression
ou Random Forest regression
? Y a-t-il des caractéristiques spécifiques des données qui pourraient décider d'aller vers un algorithme spécifique parmi l'arbre mentionné ci-dessus? Quelles sont les caractéristiques que je dois rechercher dans mon jeu de données pour prendre la décision? Et y a-t-il des raisons qui inciteraient à choisir un algorithme decision tree
ou random forest
même si la même exactitude peut être obtenue par linear regression
?
machine-learning
algorithms
random-forest
linear-regression
decision-trees
machine-learning
predictive-modeling
forecast
r
clustering
similarity
data-mining
dataset
statistics
text-mining
text-mining
data-cleaning
data-wrangling
machine-learning
classification
algorithms
xgboost
data-mining
dataset
dataset
regression
graphs
svm
unbalanced-classes
cross-validation
optimization
hyperparameter
genetic-algorithms
visualization
predictive-modeling
correlation
machine-learning
predictive-modeling
apache-spark
statistics
normalization
apache-spark
map-reduce
r
correlation
confusion-matrix
r
data-cleaning
classification
terminology
dataset
image-classification
machine-learning
regression
apache-spark
machine-learning
data-mining
nlp
parsing
machine-learning
dimensionality-reduction
visualization
clustering
multiclass-classification
evaluation
unsupervised-learning
machine-learning
machine-learning
data-mining
supervised-learning
unsupervised-learning
machine-learning
data-mining
classification
statistics
predictive-modeling
data-mining
clustering
python
pandas
machine-learning
dataset
data-cleaning
data
bigdata
software-recommendation
Jason Donnald
la source
la source
Réponses:
Permettez-moi de l'expliquer en utilisant quelques exemples pour une intuition claire:
La régression linéaire est un modèle linéaire, ce qui signifie qu'il fonctionne très bien lorsque les données ont une forme linéaire. Mais, lorsque les données ont une forme non linéaire, un modèle linéaire ne peut pas capturer les entités non linéaires.
Donc, dans ce cas, vous pouvez utiliser les arbres de décision, qui capturent mieux la non-linéarité des données en divisant l'espace en sous-espaces plus petits en fonction des questions posées.
Je suppose que la réponse de Quora ici ferait un meilleur travail que moi, en expliquant la différence entre eux et leurs applications. Permettez-moi de citer ceci pour vous:
la source
when the data has a non-linear shape, then a linear model cannot capture the non-linear features
Il s'agit d'une idée fausse courante. Tout d'abord, une simple régression linéaire peut modéliser même des séries harmoniques stats.stackexchange.com/questions/60500/… . Deuxièmement, une interaction de caractéristiques peut être introduite et, bien sûr, il existe un modèle linéaire généralisé où une fonction non linéaire sur les termes linéaires est introduite (par exemple, la régression logistique).Pour autant que je sache, il n'y a pas de règle pour dire quel algorithme fonctionne pour quel ensemble de données. Assurez-vous simplement que votre ensemble de données et vos variables d'intérêt respectent les pré-hypothèses de l'exécution de chaque algorithme et essayez-le. Par exemple, la régression linéaire comporte des présupposés tels que la normalité des resuduals, l'homoscédasticité (la variabilité de la variable de réponse est la même à tous les niveaux de la variable explicative), etc. Vérifiez simplement ces variables pour vos variables et essayez l'algorithme.
Vous pouvez utiliser un logiciel pointer et cliquer pour voir les résultats sans vous impliquer dans le paramétrage du code et des paramètres. Si vous êtes un utilisateur R, le paquet hochet sera un outil très utile à ce stade. Vous faites votre travail en mode pointer et cliquer et vous avez accès au code derrière.
la source