Quels sont des exemples concrets de «modèles statistiques non paramétriques»?

12

Je lis ici l'article de Wikipédia sur les modèles statistiques et je suis quelque peu perplexe quant à la signification des "modèles statistiques non paramétriques", en particulier:

Un modèle statistique n'est pas paramétrique si l'ensemble de paramètres est de dimension infinie. Un modèle statistique est semi - paramétrique s'il a à la fois des paramètres de dimension finie et de dimension infinie. Formellement, si est la dimension de et est le nombre d'échantillons, les modèles semi-paramétriques et non paramétriques ont tous les deux comme . Si comme , alors le modèle est semi-paramétrique; sinon, le modèle n'est pas paramétrique.ΘdΘndnd/n0n

Je comprends que si la dimension (je suppose que cela signifie littéralement le nombre de paramètres) d'un modèle est finie, alors c'est un modèle paramétrique.

Ce qui n'a pas de sens pour moi, c'est comment nous pouvons avoir un modèle statistique qui a un nombre infini de paramètres, de sorte que nous pouvons l'appeler "non paramétrique". De plus, même si tel était le cas, pourquoi le «non», s'il y a en fait un nombre infini de dimensions? Enfin, étant donné que j'y arrive dans un contexte d'apprentissage automatique, y a-t-il une différence entre ce «modèle statistique non paramétrique» et, par exemple, «modèles d'apprentissage automatique non paramétrique»? Enfin, quels pourraient être des exemples concrets de tels "modèles de dimension infinie non paramétriques"?

Creatron
la source
3
En utilisant une autre page Wiki ( en.wikipedia.org/wiki/… ): «Les modèles non paramétriques diffèrent des modèles paramétriques en ce que la structure du modèle n'est pas spécifiée a priori mais est plutôt déterminée à partir des données. Le terme non paramétrique ne signifie pas que ces modèles manquent complètement de paramètres, mais que le nombre et la nature des paramètres sont flexibles et non fixés à l'avance. » donc non paramétrique n'a pas un nombre infini de paramètres mais un nombre inconnu de paramètres.
Riff
J'ai un doute. Dans les modèles non paramétriques, nous définissons la structure du modèle a priori. Par exemple, dans Decision Trees (qui est un modèle non paramétrique), nous définissons max_depth. Alors, comment pouvez-vous dire que ce paramètre est en effet appris / déterminé à partir des données elles-mêmes et non prédéterminé par nous?
Amarpreet Singh

Réponses:

5

Comme Johnnyboycurtis a répondu, les méthodes non paramétriques sont celles qui ne font aucune hypothèse sur la distribution de la population ou la taille de l'échantillon pour générer un modèle.

Un modèle k-NN est un exemple de modèle non paramétrique car il ne prend en compte aucune hypothèse pour développer un modèle. Un Naive Bayes ou K-means est un exemple de paramétrique car il suppose une distribution pour créer un modèle.

Par exemple, K-means suppose ce qui suit pour développer un modèle Tous les clusters sont sphériques (iid gaussiens). Tous les axes ont la même distribution et donc la variance. Tous les clusters sont de taille égale.

Quant au k-NN, il utilise l'ensemble complet d'apprentissage pour la prédiction. Il calcule les voisins les plus proches à partir du point de test pour la prédiction. Il ne suppose aucune distribution pour la création d'un modèle.

Pour plus d'informations:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. /stats//a/133841/86202
  3. /stats//a/133694/86202
prashanth
la source
Pouvez-vous développer cela s'il vous plaît? Pourquoi KNN est un exemple de non paramétrique, et pourquoi K-means pourrait l'être? Ce sont ces détails que je recherche, en particulier des exemples de méthodes non paramétriques, et pourquoi / comment ils n'ont pas d'hypothèse sur la distribution de la population. Merci!
Creatron
@Creatron J'ai modifié la réponse pour plus d'explications.
prashanth
3

Donc, je pense que vous manquez quelques points. D'abord et surtout,

Une méthode statistique est dite non paramétrique si elle ne fait aucune hypothèse sur la distribution de la population ou la taille de l'échantillon.

Voici un tutoriel simple (appliqué) sur certains modèles non métriques: http://www.r-tutor.com/elementary-statistics/non-parametric-methods

Un chercheur peut décider d'utiliser un modèle non paramétrique vs un modèle paramétrique, disons, régression non paramétrique vs régression linéaire, parce que les données violent les hypothèses retenues par le modèle paramétrique. Puisque vous venez d'un milieu ML, je suppose que vous n'avez jamais appris les hypothèses typiques du modèle de régression linéaire. Voici une référence: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

La violation des hypothèses peut fausser vos estimations de paramètres et, en fin de compte, augmenter le risque de conclusions non valides. Un modèle non paramétrique est plus robuste aux valeurs aberrantes et aux relations non linéaires, et ne dépend pas de nombreuses hypothèses de distribution de la population, par conséquent, peut fournir des résultats plus fiables en essayant de faire des inférences ou des prédictions.

Pour un didacticiel rapide sur la régression non paramétrique, je recommande ces diapositives: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf

Jon
la source
Merci pour les liens, je vais les parcourir. Une chose cependant, est comment sommes-nous censés marier cela avec le "nombre infini de paramètres" qui composent un modèle "non paramétrique"? Merci
Creatron
Il n'y a aucune citation pour ce "nombre infini de paramètres", donc je ne peux pas commenter. Je n'ai jamais vu une telle référence au sujet du modèle statistique non paramétrique, donc j'aurais besoin de voir une référence avant de pouvoir fournir une réponse / interprétation. Pour l'instant, je m'inquiéterais des hypothèses de modèles spécifiques par rapport à un domaine entier.
Jon
L'article de Wikipédia cité dans ma question fait référence à la dimensionnalité infinie. Littéralement: "Un modèle statistique n'est pas paramétrique si l'ensemble de paramètres est de dimension infinie." Qu'est-ce que ça veut dire? C'est à cela que je fais référence.
Creatron
Je connais. Mais Wikipedia ne fournit pas de citation pour cette déclaration. Je ne peux pas faire confiance à quelque chose sans référence.
Jon
3

Je suis actuellement en train de suivre un cours sur l'apprentissage automatique, où nous utilisons la définition suivante de modèles non paramétriques: "Les modèles non paramétriques augmentent en complexité avec la taille des données".

Modèle paramétrique

Pour voir ce que cela signifie, regardons la régression linéaire, un modèle paramétrique: Là, nous essayons de prédire une fonction paramétrée dans : La dimensionnalité de w est indépendante du nombre d'observations, ou la taille de vos données.wd

f(x)=wTx

Modèles non paramétriques

Au lieu de cela, la régression du noyau tente de prédire la fonction suivante: où nous avons points de données, sont les poids et est la fonction du noyau. Voici le nombre de paramètres est en fonction du nombre de points de données .

f(x)=i=1nαik(xi,x)
nαik(xi,x)αin

Il en va de même pour le perceptron noyé:

f(x)=sign(i=1nαiyik(xi,x)))

Revenons à votre définition et disons que d était le nombre de . Si nous laissons alors . C'est exactement ce que la définition de wikipedia demande.αind

J'ai pris la fonction de régression du noyau de mes diapositives de cours et la fonction perceptron noyée de wikipedia: https://en.wikipedia.org/wiki/Kernel_method

sop_se
la source