En lisant l'excellente modélisation statistique: Les deux cultures (Breiman 2001) , nous pouvons saisir toute la différence entre les modèles statistiques traditionnels (par exemple, la régression linéaire) et les algorithmes d'apprentissage automatique (par exemple, Bagging, Random Forest, Boosted trees ...).
Breiman critique les modèles de données (paramétriques) car ils sont basés sur l'hypothèse que les observations sont générées par un modèle formel connu prescrit par le statisticien, qui peut mal émuler la nature. D'un autre côté, les algos ML n'assument aucun modèle formel et apprennent directement les associations entre les variables d'entrée et de sortie à partir des données.
J'ai réalisé que l'ensachage / RF et le boosting sont également en quelque sorte paramétriques: par exemple, ntree , mtry en RF, taux d'apprentissage , fraction de sac , complexité des arbres en gradient stochastique Les arbres boostés sont tous des paramètres de réglage . Nous estimons également ces paramètres à partir des données, car nous utilisons les données pour trouver les valeurs optimales de ces paramètres.
Alors quelle est la différence? Les RF et les arbres boostés sont-ils des modèles paramétriques?
Je pense que le critère paramétrique et non paramétrique est le suivant: si le nombre de paramètres croît avec le nombre d'échantillons d'apprentissage. Pour la régression logistique et svm, lorsque vous sélectionnez les fonctionnalités, vous n'obtiendrez pas plus de paramètres en ajoutant plus de données d'entraînement. Mais pour RF et ainsi de suite, les détails du modèle changeront (comme la profondeur de l'arbre) même si le nombre d'arbres ne change pas.
la source
tree.complexity
paramètre, vous changez juste sa valeur. De plus, dans RF et Boosting, le nombre d'arbres dans la forêt / séquence change en fonction de la taille de votre échantillonAu sens statistique, le modèle est paramétrique, si des paramètres sont appris ou déduits sur la base des données. Un arbre dans ce sens n'est pas paramétrique. Bien sûr, la profondeur de l'arbre est un paramètre de l'algorithme, mais elle n'est pas intrinsèquement dérivée des données, mais plutôt un paramètre d'entrée qui doit être fourni par l'utilisateur.
la source