Je lis ici l'article de Wikipédia sur les modèles statistiques et je suis quelque peu perplexe quant à la signification des "modèles statistiques non paramétriques", en particulier:
Un modèle statistique n'est pas paramétrique si l'ensemble de paramètres est de dimension infinie. Un modèle statistique est semi - paramétrique s'il a à la fois des paramètres de dimension finie et de dimension infinie. Formellement, si est la dimension de et est le nombre d'échantillons, les modèles semi-paramétriques et non paramétriques ont tous les deux comme . Si comme , alors le modèle est semi-paramétrique; sinon, le modèle n'est pas paramétrique.
Je comprends que si la dimension (je suppose que cela signifie littéralement le nombre de paramètres) d'un modèle est finie, alors c'est un modèle paramétrique.
Ce qui n'a pas de sens pour moi, c'est comment nous pouvons avoir un modèle statistique qui a un nombre infini de paramètres, de sorte que nous pouvons l'appeler "non paramétrique". De plus, même si tel était le cas, pourquoi le «non», s'il y a en fait un nombre infini de dimensions? Enfin, étant donné que j'y arrive dans un contexte d'apprentissage automatique, y a-t-il une différence entre ce «modèle statistique non paramétrique» et, par exemple, «modèles d'apprentissage automatique non paramétrique»? Enfin, quels pourraient être des exemples concrets de tels "modèles de dimension infinie non paramétriques"?
la source
Réponses:
Comme Johnnyboycurtis a répondu, les méthodes non paramétriques sont celles qui ne font aucune hypothèse sur la distribution de la population ou la taille de l'échantillon pour générer un modèle.
Un modèle k-NN est un exemple de modèle non paramétrique car il ne prend en compte aucune hypothèse pour développer un modèle. Un Naive Bayes ou K-means est un exemple de paramétrique car il suppose une distribution pour créer un modèle.
Par exemple, K-means suppose ce qui suit pour développer un modèle Tous les clusters sont sphériques (iid gaussiens). Tous les axes ont la même distribution et donc la variance. Tous les clusters sont de taille égale.
Quant au k-NN, il utilise l'ensemble complet d'apprentissage pour la prédiction. Il calcule les voisins les plus proches à partir du point de test pour la prédiction. Il ne suppose aucune distribution pour la création d'un modèle.
Pour plus d'informations:
la source
Donc, je pense que vous manquez quelques points. D'abord et surtout,
Voici un tutoriel simple (appliqué) sur certains modèles non métriques: http://www.r-tutor.com/elementary-statistics/non-parametric-methods
Un chercheur peut décider d'utiliser un modèle non paramétrique vs un modèle paramétrique, disons, régression non paramétrique vs régression linéaire, parce que les données violent les hypothèses retenues par le modèle paramétrique. Puisque vous venez d'un milieu ML, je suppose que vous n'avez jamais appris les hypothèses typiques du modèle de régression linéaire. Voici une référence: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php
La violation des hypothèses peut fausser vos estimations de paramètres et, en fin de compte, augmenter le risque de conclusions non valides. Un modèle non paramétrique est plus robuste aux valeurs aberrantes et aux relations non linéaires, et ne dépend pas de nombreuses hypothèses de distribution de la population, par conséquent, peut fournir des résultats plus fiables en essayant de faire des inférences ou des prédictions.
Pour un didacticiel rapide sur la régression non paramétrique, je recommande ces diapositives: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf
la source
Je suis actuellement en train de suivre un cours sur l'apprentissage automatique, où nous utilisons la définition suivante de modèles non paramétriques: "Les modèles non paramétriques augmentent en complexité avec la taille des données".
Modèle paramétrique
Pour voir ce que cela signifie, regardons la régression linéaire, un modèle paramétrique: Là, nous essayons de prédire une fonction paramétrée dans : La dimensionnalité de w est indépendante du nombre d'observations, ou la taille de vos données.w∈Rd
Modèles non paramétriques
Au lieu de cela, la régression du noyau tente de prédire la fonction suivante: où nous avons points de données, sont les poids et est la fonction du noyau. Voici le nombre de paramètres est en fonction du nombre de points de données .
Il en va de même pour le perceptron noyé:
Revenons à votre définition et disons que d était le nombre de . Si nous laissons alors . C'est exactement ce que la définition de wikipedia demande.αi n→∞ d→∞
J'ai pris la fonction de régression du noyau de mes diapositives de cours et la fonction perceptron noyée de wikipedia: https://en.wikipedia.org/wiki/Kernel_method
la source