La forêt aléatoire et l'amplification sont-elles paramétriques ou non paramétriques?

13

En lisant l'excellente modélisation statistique: Les deux cultures (Breiman 2001) , nous pouvons saisir toute la différence entre les modèles statistiques traditionnels (par exemple, la régression linéaire) et les algorithmes d'apprentissage automatique (par exemple, Bagging, Random Forest, Boosted trees ...).

Breiman critique les modèles de données (paramétriques) car ils sont basés sur l'hypothèse que les observations sont générées par un modèle formel connu prescrit par le statisticien, qui peut mal émuler la nature. D'un autre côté, les algos ML n'assument aucun modèle formel et apprennent directement les associations entre les variables d'entrée et de sortie à partir des données.

J'ai réalisé que l'ensachage / RF et le boosting sont également en quelque sorte paramétriques: par exemple, ntree , mtry en RF, taux d'apprentissage , fraction de sac , complexité des arbres en gradient stochastique Les arbres boostés sont tous des paramètres de réglage . Nous estimons également ces paramètres à partir des données, car nous utilisons les données pour trouver les valeurs optimales de ces paramètres.

Alors quelle est la différence? Les RF et les arbres boostés sont-ils des modèles paramétriques?

Antoine
la source

Réponses:

12

Les modèles paramétriques ont des paramètres (les inférant) ou des hypothèses concernant la distribution des données, tandis que les RF, les réseaux neuronaux ou les arbres de stimulation ont des paramètres liés à l'algorithme lui-même, mais ils n'ont pas besoin d'hypothèses sur votre distribution de données ou de classer vos données dans une distribution théorique . En fait, presque tous les algorithmes ont des paramètres tels que des itérations ou des valeurs de marge liées à l'optimisation.

D.Castro
la source
5
Donc, pour résumer: 1) les paramètres des modèles ML et paramétriques sont ajustés / estimés sur la base des données, MAIS 2) en ML, les paramètres contrôlent la façon dont les algorithmes apprennent des données (sans faire d'hypothèses sur les données, et en aval de la génération de données), alors que les paramètres des modèles paramétriques (modèles supposés a priori) contrôlent le mécanisme supposé avoir produit les données (avec beaucoup d'hypothèses irréalistes qui tiennent rarement en pratique). Pensez-vous que ce soit un résumé adéquat? Souhaitez-vous ajouter / modifier quelque chose?
Antoine
4
Je pense qu'une phrase de l'article de Breiman qui résume tout est "la modélisation algorithmique déplace l'attention des modèles de données vers les propriétés des algorithmes".
Antoine
1
Vous pouvez le résumer comme ça, mais ... ne sous-estimez pas les modèles paramétriques. Il y a des situations où ils sont nécessaires et optimaux pour résoudre beaucoup de problèmes. De plus, leurs hypothèses ne sont pas si irréalistes. De nombreuses distributions théoriques sont valables pour expliquer beaucoup de choses, du normal au binôme au log-normal, géométrique etc. Il ne s'agit pas de l'un ou de l'autre, il s'agit de choisir la bonne façon de résoudre un problème.
D.Castro
4
Je suis d'accord. Lorsque le processus physique sous-jacent est bien connu, les modèles paramétriques sont appropriés. Breiman critique l'utilisation de modèles paramétriques pour la découverte et la prédiction de connaissances lorsque les processus sous-jacents sont inconnus
Antoine
1

Je pense que le critère paramétrique et non paramétrique est le suivant: si le nombre de paramètres croît avec le nombre d'échantillons d'apprentissage. Pour la régression logistique et svm, lorsque vous sélectionnez les fonctionnalités, vous n'obtiendrez pas plus de paramètres en ajoutant plus de données d'entraînement. Mais pour RF et ainsi de suite, les détails du modèle changeront (comme la profondeur de l'arbre) même si le nombre d'arbres ne change pas.

Yu Zhang
la source
mais en RF ou Boosting, augmenter la profondeur de l'arbre n'ajoute pas de paramètres. Vous avez toujours votre tree.complexityparamètre, vous changez juste sa valeur. De plus, dans RF et Boosting, le nombre d'arbres dans la forêt / séquence change en fonction de la taille de votre échantillon
Antoine
dans mes options, lorsque la profondeur de l'arbre change, il y a plus de divisions dans l'arbre, donc vous avez plus de paramètres. Lorsque le nombre d'arbres change en RF et Boosting à mesure que les données changent, mais cela ne se produira pas lorsque le modèle est un modèle linéaire.
Yu Zhang
1

Au sens statistique, le modèle est paramétrique, si des paramètres sont appris ou déduits sur la base des données. Un arbre dans ce sens n'est pas paramétrique. Bien sûr, la profondeur de l'arbre est un paramètre de l'algorithme, mais elle n'est pas intrinsèquement dérivée des données, mais plutôt un paramètre d'entrée qui doit être fourni par l'utilisateur.

PeterPancake
la source
Donc, disons que vous devez présenter des modèles OLS et arborescents à un public non technique, pourriez-vous dire que les premiers sont paramétriques alors que les seconds sont non paramétriques?
Tanguy